検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識
検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識
- 作者: 森大二郎
- 出版社/メーカー: 日経BP社
- 発売日: 2011/03/10
- メディア: 単行本(ソフトカバー)
- 購入: 8人 クリック: 1,087回
- この商品を含むブログ (23件) を見る
昨年ぐらいに、会社で検索勉強会というのをやっていた。
僕はそれに参加していたんだけど、
ここ1年くらいは、全くそういったことを学ぶ機会がなかった。
せっかく勉強したのにもったいないので、もうちょっとその領域の知識を深めたい。
そういう思いでこの本を手に取りました。
この本はスゴいと思う。
さらっと、難しいと思っていた概念を説明している。
こんなに上手く、誰でもわかるように説明している本って
他にないんじゃないかな?っと思いました。
メモ
- REP(p.49)
- Robot Exclusion Protocol
- robots.txtに書くヤツの事
- 十進分類法(p.80)
- メルヴィル・デューイ曰く
- 満足行くように分類することが不可能なのはわかりきった事
- 実用的なものにするため、調和と正確さを犠牲にしてしまう
- Boyer Moore法(p.98)
- 例)とばし読み
- Suffix Array(接尾辞配列)(p.110)
- 例)左詰めでソート
- TRIE(p.119)
- 例)ツメカケ
- Double-Array TRIE(p.125)
- 例)ツメカケをさらに細かく作って、ずらして合成する。
- さらに色番号を覚えておく
- 偏りの度合いに応じてもっと柔軟にページ数を少なくする手法(p.130)
- 分布によって適した手法がある。
- γ符号(ガンマ)
- δ符号(デルタ)
- Golomb符号
- 単調増加列(p.130)
- Zipfの法則(p.132)
- 単語の出現頻度とその順位は反比例する
- Heapの法則(p.132)
- 大量の文章を集めると、異なり語数の増加は徐々に鈍ってくる
- Inverted Index (転置索引) (p.137)
- 百科事典創作員方式(一度の検索で出し入れが必要な本の冊数を削減)
- BWT (Burrows Wheeler Transform) (p.142)
- ゴム紐をでつなげる
- BWTを用いた検索方式としてFM-index、CSA(Compressed Suffix Array)などがある(p.145)
- 高いスループット重要
- Aho-Corasick法 (p.155)
- 情報要求の段階(ロバート・S・テイラー ) (p.163)
- Q1 visceral (直感的な)
- Q2 conscious (意識的な)
- Q3 formalized (様式化された)
- Q3 compromized (譲歩した)
- Vector Space Model (p.176)
- TF/IDF (TF - Term Frequency, IDF - Inverse Document Frequency) (p.176)
- 強ナッシュ均衡(p.181)
- ダンピングファクタ(p.192)
- 僕、これあんまり理解できてない、後で調べる。
- 裏切りのコストを上げる以外に、協調戦略を引き出す手段はない?(p. 194)
- 教師無し学習 (Unsuperviesed Learning) (p.205)
- 潜在意味解析 (LSA: Latent Semantic Analysis)
- PLSA (Probabilistic Lateent Sementic Analysis)
- 非負値行列因子分解 (Non-negative Matrix Factorization)
- 薄皮をはぐように質問を研ぐ(p. 210)
- the subject of his interest
- his motivation
- his personal characteristics
- the relationship of the inquiry to file organization
- anticipated answers
- 図書館に訊け!(p.216)
- 読みたい
- 協調フィルタリング(Collaborative Filtering)(p. 218)
- 行動履歴情報に基づいて利用者の嗜好や傾向を見つけ出す技術