分類結果の評価

★ この記事では、機械学習による分類結果の評価方法について、わかりやすく
  説明することを
目標としています。随時更新します。

◎ 分類器の評価

教師あり学習において、ある学習アルゴリズムや作成した分類器が、どのくらい機能するのか、知る必要があります。
つまり「実際の性能の計測精度」を向上しなければならないのです。
このプロセスを怠ると、分類器の性能を確認する試験は合格することが出来ても、実運用上では全く使い物にならない分類器を納品することになります。
これは、信用問題に関わることなので、きちんと説明し(瑕疵として責められないように)理解してもらうか、性能や計測精度をあげて、次の仕事に繋げるのか、よく考える必要があります。

より良いの分類器の評価をするためにいくつかのテクニックを紹介します。

○ ROC曲線

☆ROC曲線とは、分類器の性能パラメータの全設定に対して、その結果を反映させた曲線のことです。
分類器の性能を素早く評価するためことが出来ます。
ROCは「Receiver Operating Characteristic:受動者動作特性」の略です。
実際には、プロット全体の面積に対するROC曲線より下の部分の面積を計算することで、その分類器がどのくらい優れているのか知ることができます。割合が1に近いほど良い分類器となります。

○ 混同行列

☆分類器の評価における混同行列とは、真陽性、真陽性、真陰性、偽陰性のチャートのことです。
分類器の性能を素早く評価するためことが出来ます。
行列の左上と右下が100%、右上と左下が0%という状態が理想となります。

◎ 計測性能

分類器の実際の性能の計測性能を上げるために

  • クロスバリデーション
  • ブートストラップ法

という2 つのテクニックを紹介します。
多くの場合、クロスバリデーションより、ブートストラップ法の方が優れています。

○ クロスバリデーション

☆クロスバリデーションとは、「実際の性能に近い推測」をするための学習パラメータを見つけるためのテクニックの1つです。
具体的には、訓点データを、K個のサブセットに分割し、(K-1)個のサブセットを学習データに、残りの1個のサブセットを検証データ(「検証セット」)とし、この検証セットでテストをします。
検証セットを1から順番にK回繰り返し、結果の平均を取ります。
この平均が、「実際の性能に近い推測値」となります。

○ ブートストラップ法

☆クロスバリデーションとは、「実際の性能に近い推測」をするための学習パラメータを見つけるためのテクニックの1つで、クロスバリデーションに似ています。
具体的には、「検証セット」は訓練データから、ランダムに選択され、そのデータは学習に使用しません。毎回新しい、検証セットをランダムに選びながら、N回繰り返し、結果の平均を取ります。

◎ 具体例

真陽性(true positive,TP)

予測結果が正で、真のラベルが正と、正しく分類したデータ数

偽陰性(false negative,FN)

予測結果が負で、真のラベルが正と、謝って分類したデータ数

偽陽性(false positive,FP)

予測結果が正で、真のラベルが負と、誤って分類したデータ数

真陰性(true negative,TN)

予測結果が負で、真のラベルが負と、正しく分類したデータ

○ 評価指標

☆画像認識による評価には

  • 「正解率」
  • 「再現率」
  • 「適合率(精度)」
  • 「F値」

という評価指標を使用します。
画像認識の例を元に説明していきます。

例:
入力画像を「星かそれ以外」に分類する2クラス分類器を作成しました。
入力画像を星の画像6枚とスポンジの画像を6枚の計12枚用意した場合、以下のように分類できました。


分類結果をどのように評価するのか説明していきます。

星として分類  :Positive(略称:P)

星以外として分類:Negative(略称:N)

正しく分類   :True(略称:T)

間違って分類  :False(略称:F)

まず分類結果を以下のような混同行列にします。

星の入力画像(6枚)  星の以外の入力画像(6枚)
星と分類4枚(TP)1枚(FP)
星以外と分類2枚(FN)5枚(TN)

次に、分類結果に対する「正解率」「再現率」「適合率(精度)」「F値」を求めます。

○ 正解率

☆正解率とは、正しく分類できた数(T)をテスト画像の総数で割った割合です。

正解率 = ( TP + TN ) / ( TP + FN + FP + TN )

正解率 = ( 4 + 5) / ( 4 + 2 + 1 + 5 ) = 0.75(75%)

○ 適合率(精度)

☆適合率とは、(P)と正しく分類できた数を、(P)と分類した総数で割った割合です。
一般的には、適合率が高い場合、「見逃しが少ないですが、不正解も正解と分類していることが多い」です。
つまり、「数を打てば、当たる作戦」です。

適合率 = ( TP ) / ( TP + FP )

適合率 = ( 4 ) / ( 4 + 1 ) = 0.80(80%)

○ 再現率

☆再現率とは、(P)と正しく分類できた数を、(P)の総数で割った割合です。
一般的には、再現率が高い場合、「不正解を正解と分類することは少ないですが、見逃をしている場合が多い」です。
つまり「堅実すぎて、間違えはしないが当たりもしない作戦」です。

再現率 = ( TP ) / ( TP + FN )

再現率 = ( 4 ) / ( 4 + 2 ) = 0.67(67%)

○ 特異度

(N)と正しく分類できた数を、(N)の総数で割った割合です。

特異度 = ( TN ) / ( FP + TN )

特異度 = ( 5 ) / ( 1 + 5 ) = 0.83(83%)

○ F値

適合率と再現率の調和平均です。

F値 = ( 2*適合率*再現率 ) / ( 再現率 + 適合率 )

F値 = ( 2*80*67 ) / ( 80 + 67 ) = 73

>画像という分野

画像という分野

画像に関連することを網羅していきます。

ぜひお時間がある方はのぞいてみてください。

CTR IMG