注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
さて先日あることがきっかけでヒープスの法則 (Heaps' law) のことを思い出した.最初はヒープの法則と... さて先日あることがきっかけでヒープスの法則 (Heaps' law) のことを思い出した.最初はヒープの法則と記憶していたのだけれど,'がHeapsの後ろにあるので,ヒープスの法則とかヒープス則と呼ぶのが正しいのだろう.ここではHeapsの法則と呼ぶことにする. Heapsの法則とはN語数から成るコーパスにおいて,総語彙数Dは以下の等式で表現できるというもの*1 ここで,kとβはコーパスによって定められた定数とする.英文コーパスではβは大体0.4-0.6になるらしい*2 この法則が示唆することは,コーパスサイズの増加に対して語彙は増え続けるというもの.まぁlogスケールにおいては直線なので,徐々にサチっていくのは確かであるが. Wikipediaでヒープスの法則の出展を調べてみると,どうやら1978年出版のHeaps著"Information Retrieval"[1]内で提案されたものら
2012/01/29 リンク