AutoML【TPOT】パイプライン評価指標

AutoML【TPOT】パイプライン評価指標

これまでの例では……

  • 分類問題:F値(f1)
  • 回帰問題:決定係数(r2)

……でパイプラインを評価してきました。

今回は他にどのような評価指標があるか説明します。

なお、評価指標TPOTClassifierTPOTRegressorscoringパラメータで指定することができます。

次の評価指標を使うことができます。(参考:http://epistasislab.github.io/tpot/using/#scoring-functions

分類問題の評価指標一覧

記号の説明です。

  • y_pred:予測値
  • y_obs:実測値
  • n:データ数

分類問題でよく登場する混同行列(Confusion Matrix)の例です。

評価指標 概要
accuracy 正解率。y_obs=y_predとなるデータの数をサンプル数で割った値です。

 

adjusted_rand_score 2種類のクラスタリングが同じ分け方になっているかどうかを評価する指標です。予測データが正解データと同じ分け方になっていれば1、まったくのランダムになっているのであれば0になります。
average_precision 平均適合率(Average Precision)。分類の閾値を変えていった時の各再現率(Recall)の増分を重みとしてその閾値での適合率(Precision)を加重平均した指標。1に近いほど良い分類ができています。
balanced_accuracy 不均衡データのバランスをとった正解率。クラスのデータに偏りがあることで実際の性能よりも高く評価されることを防ぎます。クラス間のデータ数が近い場合は、Accuracy(正解率)に近い値になります。
f1 F値(F1スコア)です。再現率(Recall)と適合率(Precision)の調和平均をとったものです。F1スコアを最大化するように分類器を作ることで、再現率と適合率両方をバランスよく高める分類器を作成することができます。3クラス以上のときは、各クラスのF1スコアの平均値です。
f1_macro

average=’macro’

クラスごとにF1スコアを計算し、平均をとったものです。
f1_micro

average=’micro’

混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)からF1スコアを次の式で計算したものです。
f1_samples

average=’samples’

多ラベル問題にのみ使える指標です。多ラベル問題とは例えば一つの画像に複数のラベルがつけられているときに、そのラベルを予測する問題です。事例ごとにPrecision, Recall,F1スコアを計算し、平均をとったものです。
f1_weighted

average=’weighted’

ラベルごとのF1スコアを、各ラベルのサンプル数で加重平均したスコアです。
neg_log_loss 予測された確率と結果の乖離を交差エントロピーで表現したスコアです。正解に近いほど0に近づきます。
precision 適合率です。真と予測したデータのうち、実際に正であるデータの割合です。
precision_macro

average=’macro’

クラスごとにPrecisionを計算し、平均をとったものです。
precision_micro

average=’micro’

混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)から次の式でPrecisionを計算したものです。
precision_samples

average=’samples’

多ラベル問題にのみ使える指標です。事例ごとにPrecisionを計算し、平均をとったものです。
precision_weighted

average=’weighted’

ラベルごとのPrecisionを、各ラベルのサンプル数で加重平均したスコアです。
recall 実際に真であるデータのうち、真と予測されたデータの割合です。
recall_macro

average=’macro’

クラスごとにRecallを計算し、平均をとったものです。
recall_micro

average=’micro’

混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)から次の式でRecallを計算したものです。
recall_samples

average=’samples’

多ラベル問題にのみ使える指標です。事例ごとにRecallを計算し、平均をとったものです。
recall_weighted

average=’weighted’

ラベルごとのRecallを、各ラベルのサンプル数で加重平均したスコアです。
roc_auc ROC曲線の曲線下部の面積です。0から1の値をとり、1に近いほど良い予測です。

回帰問題の評価指標一覧

評価指標 概要
neg_median_absolute_error 予測値と実測値の差の絶対値の中央値です。
neg_mean_absolute_error 予測値と実測値の差の絶対値の平均です。
neg_mean_squared_error 予測値と実測値の差の二乗の平均です。
r2 決定係数です。

次回

今回はTPOTに実装されている評価指標を説明しました。

TPOTにはここで挙げた指標のほかに、自分で設定した評価指標でパイプラインを評価できます。

次回はその方法を説明します。

AutoML【TPOT】評価指標を自分で作る方法