今日の仕事で,

MDL(Minimum Description Length)の最適化をしようとしたら,案外手こずってしまいました.MDLは,統計的な推定の概念の一つで,

MDL=モデル記述長+データ記述長

が,最短のものが一番美しく,正しいに違いない,という立場です.
モデル記述長というのは,例えば統計的には,ある学校のあるクラスの成績のばらつきが正規分布になるとすると,成績は中間の人の成績を平均値とする正規分布がモデルとなります.データ記述長は,そのクラスの人数と科目の積になるでしょうか.

その学校のレベルを判定しようと思ったら,多くのクラスの成績を参考にする方が正確にレベルを判定できるかもしれません.しかしサンプルとするクラスの数を増やすと,勉強が大嫌いな例外のサンプルも増えて不正確になる可能性もあります.逆にサンプルとするクラスの数が少ないと,極端に成績が良い生徒や極端に悪い生徒がいるクラスがサンプルに入った場合,極端に判定精度が悪くなることは常識的に想像できます.その両者をちょうど良く取り入れよう,というのが,MDL原理です.

おお,良さそうと思うのですが,現場の研究者に聞くと,MDLを使ってもうまくいかなかったという声が多いです.しかしそれは,MDLは原理であって,何かの問題に適用する際は,その問題に対する最適化が必須だということを忘れているからです.

では,MDLでうまく判定できるコツは...また次回に(笑)

ヒントは,「和田係数」です.