このエントリについて クラスタリングの結果を定量評価するときの基準を数年に1回ぐらい調べてる気がするのと、日本語であまりまとまった情報を見ない気がしたので挙げてみます。今回挙げるのはハード(クリスプ)クラスタリングについての指標です。後で追加するかも。 クラスタ内距離二乗和 という呼び方が正しいのかどうかわかりませんが、k-means 法の場合はこの値を繰り返し処理の結果、極小化するようになっており*1、重要な指標となります。 クラスタ内の凝集性を表現します。 \( P_k = \sum_{i=1}^k \sum_{x \in C_{i} } \left( d(x, c_i) \right) ^2 \) \( k \): クラスタ数 \( C_i \): i番目のクラスタ \( x \): クラスタのメンバー \( c_i \): i番目のクラスタのセントロイド Pseudo F Cali