これまでの例では……
- 分類問題:F値(f1)
- 回帰問題:決定係数(r2)
……でパイプラインを評価してきました。
今回は他にどのような評価指標があるか説明します。
なお、評価指標はTPOTClassifierとTPOTRegressorのscoringパラメータで指定することができます。
次の評価指標を使うことができます。(参考:http://epistasislab.github.io/tpot/using/#scoring-functions)
Contents
分類問題の評価指標一覧
記号の説明です。
- y_pred:予測値
- y_obs:実測値
- n:データ数
分類問題でよく登場する混同行列(Confusion Matrix)の例です。
評価指標 | 概要 |
accuracy | 正解率。y_obs=y_predとなるデータの数をサンプル数で割った値です。
|
adjusted_rand_score | 2種類のクラスタリングが同じ分け方になっているかどうかを評価する指標です。予測データが正解データと同じ分け方になっていれば1、まったくのランダムになっているのであれば0になります。 |
average_precision | 平均適合率(Average Precision)。分類の閾値を変えていった時の各再現率(Recall)の増分を重みとしてその閾値での適合率(Precision)を加重平均した指標。1に近いほど良い分類ができています。 |
balanced_accuracy | 不均衡データのバランスをとった正解率。クラスのデータに偏りがあることで実際の性能よりも高く評価されることを防ぎます。クラス間のデータ数が近い場合は、Accuracy(正解率)に近い値になります。 |
f1 | F値(F1スコア)です。再現率(Recall)と適合率(Precision)の調和平均をとったものです。F1スコアを最大化するように分類器を作ることで、再現率と適合率両方をバランスよく高める分類器を作成することができます。3クラス以上のときは、各クラスのF1スコアの平均値です。 |
f1_macro
※average=’macro’ |
クラスごとにF1スコアを計算し、平均をとったものです。 |
f1_micro
※average=’micro’ |
混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)からF1スコアを次の式で計算したものです。 |
f1_samples
※average=’samples’ |
多ラベル問題にのみ使える指標です。多ラベル問題とは例えば一つの画像に複数のラベルがつけられているときに、そのラベルを予測する問題です。事例ごとにPrecision, Recall,F1スコアを計算し、平均をとったものです。 |
f1_weighted
※average=’weighted’ |
ラベルごとのF1スコアを、各ラベルのサンプル数で加重平均したスコアです。 |
neg_log_loss | 予測された確率と結果の乖離を交差エントロピーで表現したスコアです。正解に近いほど0に近づきます。 |
precision | 適合率です。真と予測したデータのうち、実際に正であるデータの割合です。 |
precision_macro
※average=’macro’ |
クラスごとにPrecisionを計算し、平均をとったものです。 |
precision_micro
※average=’micro’ |
混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)から次の式でPrecisionを計算したものです。 |
precision_samples
※average=’samples’ |
多ラベル問題にのみ使える指標です。事例ごとにPrecisionを計算し、平均をとったものです。 |
precision_weighted
※average=’weighted’ |
ラベルごとのPrecisionを、各ラベルのサンプル数で加重平均したスコアです。 |
recall | 実際に真であるデータのうち、真と予測されたデータの割合です。 |
recall_macro
※average=’macro’ |
クラスごとにRecallを計算し、平均をとったものです。 |
recall_micro
※average=’micro’ |
混同行列全体の真陽性(TP)・偽陽性(FP)・偽陰性(FN)から次の式でRecallを計算したものです。 |
recall_samples
※average=’samples’ |
多ラベル問題にのみ使える指標です。事例ごとにRecallを計算し、平均をとったものです。 |
recall_weighted
※average=’weighted’ |
ラベルごとのRecallを、各ラベルのサンプル数で加重平均したスコアです。 |
roc_auc | ROC曲線の曲線下部の面積です。0から1の値をとり、1に近いほど良い予測です。 |
回帰問題の評価指標一覧
評価指標 | 概要 |
neg_median_absolute_error | 予測値と実測値の差の絶対値の中央値です。 |
neg_mean_absolute_error | 予測値と実測値の差の絶対値の平均です。 |
neg_mean_squared_error | 予測値と実測値の差の二乗の平均です。 |
r2 | 決定係数です。 |
次回
今回はTPOTに実装されている評価指標を説明しました。
TPOTにはここで挙げた指標のほかに、自分で設定した評価指標でパイプラインを評価できます。
次回はその方法を説明します。