Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
統計的自然言語処理エンジンStaKK を開発しました。nokuno’s stakk at master - GitHub 以下、READMEからの引用です。 現在の機能 かな漢字変換 予測変換 または サジェスト スペル訂正 形態素解析 HTTPによるAPIサーバ Trieの直接操作現在は、StaKK は辞書として Mozc (Google日本語入力のOSS版)のデータを使っています。 リバースモードについてStaKK はノーマルモードとリバースモードの2つのモードを持っています。 ノーマルモードでは、かなを入力し、単語(主に漢字)を出力します。 リバースモードでは、単語を入力し、読みや品詞を出力します。これらの2つのモードの応用例をまとめると、次の表のようになります。 機能 ノーマルモード リバースモード Convert かな漢字変換 形態素解析 Predict 予測変換 検索ワードのサ
今回はこの言葉の解析をMeCab+NAIST辞書にお願いして、結果を分析することで、MeCabが行っているコスト計算について勉強してみたいと思います。 とりあえず実行してみる さっそくMeCabに「日本テレビ東京」を解析してもらいましょう。 $ echo 日本テレビ東京 | mecab 日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン,, テレビ東京 名詞,固有名詞,組織,*,*,*,テレビ東京,テレビトウキョウ,テレビトーキョー,, EOS 「日本 | テレビ東京」と分けていますね。視聴率的には負けていますが、NAIST辞書的には日本テレビよりもテレビ東京が優先されたようです。 ちなみに「フジテレビ東京」ではどうなるでしょうか。 $ echo フジテレビ東京 | mecab フジテレビ 名詞,固有名詞,組織,*,*,*,フジテレビ,フジテレビ,フジテレビ,, 東京 名詞,
iPhoneのSDKの条項に変更が加わり、Flashのクロスコンパイルを含む 純正開発ツール以外で作成されたバイナリの配布が禁止となるようです。 世間でも散々言われていますが、この変更は正直とても残念です。 Apple的には「製品のクオリティーが保てないから」という理由だそうですが、 Windows版iTunesが意味もなくQuickTime入れたり、Windows非標準のUIを 使いまくっていて、お世辞にもクオリティーが高いとは言えないのを棚にあげて、 クオリティー云々と言い訳できるのでしょうか。アプリなんて所詮 玉石混淆。決めるのはユーザです。 MeCabは以前GPL/LGPLでした。Appleを含む複数の方からこのライセンスでは 使いにくいと言う指摘をうけ、前職の同僚と協議をしながらBSD/LGPL/GPL のトリプルライセンスにしたという経緯があります。結果としてこの変更は うまく
MeCab 0.90 における mecabrc ファイルの優先順位 1. コマンドラインパラメータ -r, --rcfile で指定した mecabrc ファイル 2. 環境変数 HOME が設定されている場合 ~/.mecabrc ファイル 3. 環境変数 MECABRC で指定した mecabrc ファイル 4. レジストリ HKEY_LOCAL_MACHINE\software\mecab\mecabrc の mecabrc ファイル [Windowsのみ] 5. レジストリ HKEY_CURRENT_USER\software\mecab\mecabrc の mecabrc ファイル [Windowsのみ] 6. DLL と同じディレクトリの mecabrc [Windowsのみ] 7. MECAB_DEFAULT_RC UNIX は /usr/local/etc/mecabrc
文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為(文字コードの問題かな)、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました(本当にこの方法で良いのか未確認)。 辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。 読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は本来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。 参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使
mecab の ruby バインディング、mecab-ruby をインストールします。 2007-11-10 Leopard でのビルドを追加 まえがき インストール 設定 使い方 関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日本語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に喰わせています。 MeCab —- mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac で使っているソフト —- ソフトのインストールや設定
mecab-skkserv とは mecab-skkserv は, 形態素解析器 MeCab を用いたシンプルな仮名漢字変換サーバです. SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 目次 特長 変更点 ダウンロード インストール 使い方 辞書への単語登録 注意事項 TODO リンク 特長 SKK は通常,「単語単位」の変換のみをサポートしますが, mecab-skkserv では, 「文単位」の変換が可能となります. 連文節を含む比較的長い入力でもそれなりに賢く変換してくれます. 単語連接コストや単語生起コストは, HMM に基づく確率的な推定に基づいて 与えられています. MeCab が出力する N-best 解 を変換候補として用いており, 通常の SKK よりは 多くの変換候補をそれなりのランキン
形態素解析 Mecab、mecab-ruby、IAP、NAIST、UniDic辞書のインストール手順と簡単なサンプル MeCabをコマンドラインから実行した際に指定できる引数と、その実行サンプル一覧 日本テレビ東京というどこで分けるか判別し辛い言葉を使って、コスト計算について解説 複数の辞書による解析結果を並べて表示します。どの辞書を使うか悩んだ時などにお使いください Igoのインストールと軽く使ってみた感想などを 辞書内包でLuceneでもSolrでも使える便利なライブラリ SearchモードがおしゃれなKuromojiを利用したメモ 言語資源 Wikimediaが公開しているDBのダンプ等のデータファイルの入手方法と、内容の説明 Solrサーバを立ててWikipediaのデータを登録する 対象を絞ったIME辞書は良い教師になってくれるかもしれない 不自然言語資源の宝庫であるTwitte
-r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書
mecab をインストールします。 2007-11-10 Leopardでも、問題なくビルド出来ました まえがき インストール 設定 使い方 関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日本語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に渡しています。 MecabRuby —- bogofilter-nihongo.rb で、mecab-ruby を呼んでいます。mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac
こちらは独自ドメインからレンタルサーバー、フレッツ接続専用会員までトータルサポートのプロバイダー、BiG-NETです。 いつも弊社ユーザーのページにアクセスをして頂きましてありがとうございます。 http://www15.big.or.jp/~t98907/unmei/diary/?200707b 404 Not Found (ファイルが見つかりません) 申し訳ございませんが、お客様がアクセス要求されました上記ページは、現在アクセスが出来ません。 弊社では、なぜアクセスできないのかと言う第三者からのお問い合わせにはお答えすることが出来ません。 もしこのページの関係者をご存知でしたら、連絡を取ってみることをお薦め致します。 何卒ご容赦下さい。
#!/usr/bin/python # _*_ coding: euc_jp _*_ ## Copyright 2007 Hiroshi Ayukawa (email: ayukawa.hiroshi [atmark] gmail.com) ## ## Licensed under the Apache License, Version 2.0 (the "License"); ## you may not use this file except in compliance with the License. ## You may obtain a copy of the License at ## ## http://www.apache.org/licenses/LICENSE-2.0 ## ## Unless required by applicable law or agreed
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
今週やってくることの一つとして、学習データを作成して実際にSVMで学習させてみる、というのがある。 そのためのソフトウェアとしてMeCabを利用する。 また、TermExtract という単語(名詞)に対する重み付けを行うためのPerlモジュールを利用する。 MeCabは形態素解析を行うソフトウェア。 TermExtractはMeCabやChaSenなどの処理結果から語句の重要度(TF・IDFなど)を計算する。 まずはMeCabのインストール ソースの入手先:http://mecab.sourceforge.net/src % ./configure --with-charset=utf8 % make % su # make install MeCab用の辞書も同様の手順でインストール 今回はIPA辞書を使うことにする ソースの入手先:http://mecab.sourceforge.
このページの記述は、次のページを参考にしました。 RとLinuxと... http://cms.ias.tokushima-u.ac.jp/index.php?RMeCab ちなみに、ここでは、OS 標準の Ruby からアクセスしたり、RubyCocoa で作成したプログラムからも使えることを前提にインストールしますが、 もし、直接 Ruby を使って MeCab を使いたいだけなら、MacPorts を使ってパッケージをインストールする方が楽です。 その方法は、こちらから。 この方法で MeCab-Ruby をインストールしても、Ruby から MeCab が使えるようになります。 文字ばかりだと、ターミナルを扱った事がない人にはちょっとわかりづらいかと思い、スクリーンショットいっぱいのページも作りました。 ここでの方法は、Leopard と Snow Leopard の両方で試して
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
{{#tags}}- {{label}}
{{/tags}}