ã‚¦ã‚£ã‚ãƒšãƒ‡ã‚£ã‚¢æ—¥æœ¬èªžç‰ˆ tf-idfã®idfè¾žæ›¸ã®å…¬é–‹

nora(é‡Žè‰¯)-idf-dic

ãƒ¢ãƒãƒ™ãƒ¼ã‚·ãƒ§ãƒ³

LevelDB(kvs)ã‚’åˆ©ç”¨ã—ãŸçœãƒ¡ãƒ¢ãƒªè¨è¨ˆã§ã€ã™ã¹ã¦ã®Wikipediaã®ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã‚³ãƒ³ãƒ†ãƒ³ãƒ„ã‚’å–å¾—ã—ã¦å‡¦ç†ã—ãŸã„
XGBoostã‚„ElasticNetãªã©ä»–ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã®å‰å‡¦ç†ã«ã‚’æ¥½ã«ã—ãŸã„
JSON ã‚¹ã‚ãƒ¼ãƒžãªã®ã§ã€Pythonä»¥å¤–ã®ä»–ã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆè¨€èªžã§ã‚‚åˆ©ç”¨å¯èƒ½ã«ã—ãŸã„

ãƒ€ã‚¦ãƒ³ãƒãƒ¼ãƒ‰ãƒªãƒ³ã‚¯

Dropboxã«ã‚¢ãƒƒãƒ—ãƒãƒ¼ãƒ‰ã—ã¦ãŠã‚Šã¾ã™ã€‚

www.dropbox.com

ãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆ

idfã¯jsonã®dictåž‹ï¼ˆãƒãƒƒã‚·ãƒ¥ãƒžãƒƒãƒ—ã¨ã‚‚è¨€ã„ã¾ã™ï¼‰ã§ã™ã€‚

idf = { term1: weight1, term2:weight2, ... }

ã“ã®ã‚ˆã†ãªãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«ãªã£ã¦ãŠã‚Šã€å˜èªžã¨idfã®é‡ã¿ãŒãƒšã‚¢ã«ãªã£ã¦æ ¼ç´ã•ã‚Œã¦ã„ã¾ã™ã€‚

å¼ã®èª¬æ˜Ž

tf-idfã¯ãƒ’ãƒ¥ãƒ¼ãƒªã‚¹ãƒ†ã‚£ãƒƒã‚¯ãªã‚‚ã®ãªã®ã§ã€ãã‚‚ãã‚‚æ˜Žç¢ºãªã‚“ã¦ãªã„ã‚“ã§ã™ãŒã€ä¸€ç•ªã€ã‚ãŸã—ã¨ã‚ãŸã—ã®å‘¨ã‚ŠãŒä½¿ã†å¼ã‚’ç¤ºã—ã¾ã™ã€‚
ç™ºå±•çš„ãªçŸ¥è˜ãŒå¿…è¦ãªã‚‰ã°ã€è‹±èªžç‰ˆWikipediaã‚’è¦‹ã¦æ›´ã«ã©ã†ã„ã†ã“ã¨ãªã®ã‹ç†è§£ã—ã¦ã¿ã‚‹ã¨ã‚ˆã„ã§ã™ã€‚

f:id:catindog:20170215222337p:plain

ã‚ã‚“ã¾ã‚Šå…¨ä½“ã«æ¸¡ã£ã¦å‡ºç¾ã—ãªã„å˜èªžã¯ã€é‡è¦ã ã‚ã†ã¨ã„ã†ä»®èª¬ã«åŸºã¥ã„ã¦ã„ã¾ã™ã€‚ãã—ã¦ãã‚Œã¯ã€å¾€ã€…ã«ã—ã¦ã†ã¾ãã„ãã¾ã™ã€‚
tfã¯ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆdã«æ–¼ã‘ã‚‹tã®ç™ºç”Ÿé »åº¦ã§ã™ã€‚

ä»¥ä¸‹ã¯å®Ÿéš›ã«mecabç‰ã‚’ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã—ã¦ã€ã‚¼ãƒã‹ã‚‰idfè¾žæ›¸ã‚’ä½œæˆã™ã‚‹ä¾‹ãªã®ã§ã€idfè¾žæ›¸ã‚’åˆ©ç”¨ã™ã‚‹ã®ã¿ãªã‚‰å‚ç…§ã™ã‚‹å¿…è¦ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚

ãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆã®å–å¾—å–å¾—ã¨ã€å‘¨è¾ºã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ã‚¦ã‚§ã‚¢ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

LevelDB(kvs)ã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«
(Ubuntu 16.04ä»¥ä¸Šã‚’æƒ³å®šã—ã¦ã„ã¾ã™)

$ git clone https://github.com/google/leveldb.git
$ cd leveldb
$ make 
$ cd include
$ sudo cp -r leveldb
$ sudo cp -r leveldb/ /usr/local/include/
$ cd ..
$ cd out-shared
$ sudo cp lib* /usr/local/lib/
$ sudo ldconfig
$ cd ~

mecabã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

$ sudo apt install mecab libmecab-dev mecab-ipadic
$ sudo apt install mecab-ipadic-utf8

mecab-python3, plyvelã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«

$ git clone https://github.com/GINK03/tiny-japanese-wikipedia-tfidf-dic-generator
$ sudo pip3 install mecab-python3
$ sudo pip3 install plyvel

NeoLogdã®ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ã€åŠã³è¾žæ›¸ã®æ›¸ãæ›ãˆ

$ cd ~
$ git clone https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd/
$ ./bin/install-mecab-ipadic-neologd
[install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.
>yes
$ sudo vi /etc/mecabrc
(å…ƒ)dicdir = /var/lib/mecab/dic/debian -> (å¤‰æ›´å¾Œ)dicdir = /usr/lib/mecab/dic/mecab-ipadic-neologd

Neologdã®ãƒ†ã‚¹ãƒˆ

$ echo "Fate/Grand Order" | mecab
Fate/Grand Order        åè©ž,å›ºæœ‰åè©ž,ä¸€èˆ¬,*,*,*,Fate/Grand Order,ãƒ•ã‚§ã‚¤ãƒˆã‚°ãƒ©ãƒ³ãƒ‰ã‚ªãƒ¼ãƒ€ãƒ¼,ãƒ•ã‚§ã‚¤ãƒˆã‚°ãƒ©ãƒ³ãƒ‰ã‚ªãƒ¼ ãƒ€ãƒ¼
EOS

å‹•ä½œç¢ºèª

$ cd ~
$ cd tiny-japanese-wikipedia-tfidf-dic-generator
$ python3 nora-idf-dic.py
(ä½•ã‚‚è¡¨ç¤ºã•ã‚Œãªã‘ã°OK)

Wikipediaã®ãƒ€ãƒ³ãƒ—æƒ…å ±ã®å–å¾—

Wikipediaã®ã‚¹ãƒŠãƒƒãƒ—ã‚·ãƒ§ãƒƒãƒˆã¨å‘¼ã°ã‚Œã‚‹æƒ…å ±ã‚’å–å¾—ã—ã€å±•é–‹ã—ã¾ã™ã€‚

$ wget https://dumps.wikimedia.org/jawiki/20170201/jawiki-20170201-pages-articles-multistream.xml.bz2
$ bunzip2 jawiki-20170201-pages-articles-multistream.xml.bz2

idfè¾žæ›¸ã‚’æ§‹ç¯‰ã—ã¾ã™ã€‚

$ python3 nora-idf-dic.py --wakati
(...60åˆ†ã»ã©å¾…ã¡ã¾ã™)
$ ls 
title_context.ldb(ã“ã®ãƒ‡ã‚£ãƒ¬ã‚¯ãƒˆãƒªãŒã‚ã‚Œã°OK)
$ python3 nora-idf-dic.py --build
(...3åˆ†ã»ã©å¾…ã¡ã¾ã™)
$ ls words_idf.json
words_idf.jsonls

tf-idfã§ãƒ™ã‚¯ãƒˆãƒ«åŒ–ã™ã‚‹

å…·ä½“ä¾‹ã‚’è¨˜ã—ã¦ãŠãã¾ã™ã€‚

$ echo "ã‚ãªãŸç‹©ã‚Šã”ã£ã“ãŒã‚ã¾ã‚Šå¥½ãã˜ã‚ƒãªã„ã‘ã‚‚ã®ãªã‚“ã ã"  | python3 nora-idf-dic.py --check
{'ã': 4.926646596986834, 'ãªã„': 2.042401886218362, 'ã ': 2.8119346405476735, 'ãŒ': 1.2142350698667934, 'ã˜ã‚ƒ': 6.054326132384362, 'ã‚ãªãŸ': 5.476151075317936, 'ã”ã£ã“': 8.627077870130083, 'ã‚“': 3.364157726200682, 'ç‹©ã‚Š': 7.11635016692977, 'å¥½ã': 4.97306829447642, 'ã‘ã‚‚ã®': 9.584680272531994, 'ã‚ã¾ã‚Š': 5.093448481495583, 'ãª': 1.6713533531785785}

keyã‚’æ•°å€¤ã¨ã—ã¦indexã‚’æŒ¯ã£ã¦ã„ã‘ã°ã€libsvmã‚„XGBoostã‚„LightGBMã§å…¥åŠ›å¯èƒ½ãªãƒ•ã‚©ãƒ¼ãƒžãƒƒãƒˆã«ãªã‚Šã¾ã™ã€‚
åˆ¥ã«ã“ã®ã‚¹ã‚¯ãƒªãƒ—ãƒˆçµŒç”±ã§èªã¿å‡ºã™ã®ã§ã¯ãªãã€jsonãƒ•ã‚¡ã‚¤ãƒ«ã ã‘èªã¿è¾¼ã‚“ã§ã€å¥½ããªã‚ˆã†ã«ä½¿ã£ã¦ã„ãŸã ã„ã¦æ§‹ã„ã¾ã›ã‚“ã€‚

ã‚³ãƒ¼ãƒ‰

Wikipediaã¯å·¨å¤§ãªã‚³ãƒ¼ãƒ‘ã‚¹ãªã®ã§ã¾ã¨ã‚‚ã«ã¯ã‚ªãƒ³ãƒ¡ãƒ¢ãƒªã§ã¯å‡¦ç†ã§ãã¾ã›ã‚“ã€‚ãƒ¡ãƒ¢ãƒªã«åŽã¾ã‚‰ãªã„æ“ä½œã‚’ã‚³ãƒ„ã‚³ãƒ„ã¨kvsã‚’ä½¿ã„ãªãŒã‚‰ãªã‚“ã¨ã‹ã™ã‚‹ã¨ã„ã†æ„Ÿã˜ã§ã™ã€‚
githubã«ã‚ã’ã¦ãŠãã¾ã—ãŸã€‚

github.com