Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

暮らしカテゴリーの変更を依頼記事元:

tsubosaka.hatenadiary.org

58 usersがブックマークコメント

コメント

10

記事へのコメント10件

注目コメント
新着コメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

{{ total_bookmarks_with_user_postfix }}{{ root_title }}

Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵... タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。また、単語数をWとしたとき、C++のmapのような二分探索木を使ってもO(N

ブックマークしたユーザー

hiroyukim2014/03/31
zsiarre2012/08/02
riywo2012/08/01
jnlp2011/06/05
hollyhocks2011/04/04
yasunori2011/02/19
ohnishiakira2011/01/25
meech2011/01/25
tomity2011/01/21
kamipo2011/01/09
nobyuki2010/07/17
hiromark2010/07/13
r_kurain2010/07/13
usuihiro19782010/06/18
ZAORIKU2010/06/17
HISAMATSU2010/06/11
TheTocotonist2010/06/04
ruicc2010/06/02

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - 暮らし

いま人気の記事 - 暮らしをもっと読む

新着記事 - 暮らし

新着記事 - 暮らしをもっと読む

設定を変更しましたx