注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
全文検索エンジンは、文書ファイルからテキスト情報を抽出して、インデックスを作成することで、高速に... 全文検索エンジンは、文書ファイルからテキスト情報を抽出して、インデックスを作成することで、高速に全文検索を行えるようにするソフトウェアです。当然ながら文書ファイルからなんらかの手段でテキスト情報を抽出しない限り、次のインデックス作成の処理に移れません。今回から、一般の文書ファイルからテキスト情報を抽出するテーマを扱っていきます。 文書フィルタ 連載の第10回目にFINDSPOTではカスタマイズ性を向上させるために、文書フィルタという独立したプログラムを経由して文書ファイルからテキスト情報を抽出する構造になっていることを説明しました。独自のファイル型式を検索対象にしたいのならば、独自ファイル形式用の文書フィルタを用意すれば良いしくみです。 文書フィルタは引数で入力ファイル名と出力ファイル名を受け取り、入力ファイルを解析してテキスト情報を抽出し、UTF-8でエンコーディングされたFINDSPO
2008/10/25 リンク