注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
全文検索エンジンについて学んでいたのだけど、転置インデックスのデータ構造という観点から見るといろ... 全文検索エンジンについて学んでいたのだけど、転置インデックスのデータ構造という観点から見るといろいろ面白かったのでまとめてみる。 転置インデックスの具体的な構造 全文検索では、転置インデックス(Inverted index)という仕組みを使う。詳しくは第3回 転置索引とは何か?:検索エンジンはいかにして動くのか?|gihyo.jp … 技術評論社 や、A first take at building an inverted index あたりを見たら良い。 もうちょっと具体的な構造が「検索エンジン自作入門」という本に書いてあったので、まとめてみると以下のようになる。 # 転置インデックス。トークンをキーとした連想配列で構築されている。 inverted_index = { "token1" => { docs_count => 3, # トークンが出現するドキュメント数 positions
2017/01/31 リンク