サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Switch 2
haroperi.hatenadiary.org
はじめに とても常識的なプログラムを書きました。パンくずリストを生成するJavaScriptです。 ファイルごとの名前をハッシュ形式で指定し、実行時に読み込んで生成しています。 例えば、下記の定義において、www.haroperi.info/emoticonは、はろぺり研>顔文字というリストが表示され、www.haroperi.info/emoticon/mecab.htmlを開くと、はろぺり研>顔文字>顔文字形態素解析と表示されます。 table = { "www.haroperi.info" : { "name": "はろぺり研", "profile.html" : { "name": "自己紹介" }, "products.html": { "name": "作品紹介" }, "emoticon" : { "name": "顔文字", "mecab.html": { "name":
概要 Ruby,YamCha,MeCabで顔文字抽出を作りました。前に情報特別演習(筑波大学の実践的な授業)でやっていたものより精度が良かったので、こっちを先に公開します。先に言っておくと、残念ながら私のオリジナルではありません。 精度とか 私が勢い良く書いた10分割交差検定が正しければ、8割から9割くらいの精度が出ています。Twitterのsample streamから取得したデータにタグ付けを施したものだけを、教師データとして使っているため、偏りがあるかもしれません。 素性 素性は「さよならー(^_^)/~」を例に取ると、こんなかんじ。 さ 感動詞 __nil__ __nil__ B よ 感動詞 __nil__ __nil__ I な 感動詞 __nil__ __nil__ I ら 感動詞 __nil__ __nil__ E ー 名詞 一般 __nil__ S ( 名詞 サ変接続 __
顔文字を形態素解析? テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類(品詞)を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。 デモ まずはデモを試してみてください。 http://www.haroperi.info/cgi-bin/emoticon.cgi 実行結果 未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。 詳細 詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。 今後、M
はじめに 相変わらずNLPというよりは文字列処理ですね。内部的にnkfを呼び出します。OSはMac OS X 10.6.7、バージョンは1.9.2, 1.8.7にて確認しました。 ソースコード require 'nkf' class String def normalize # -W1: 半カナ->全カナ, 全英->半英,全角スペース->半角スペース # -Ww: specify utf-8 as input and output encodings NKF::nkf('-Z1 -Ww', self) end end # test if $0 == __FILE__ while l = gets puts l.normalize end end
はじめに 筑波大学情報学群情報科学類では、2年次の必修科目として論理回路実験と呼ばれる1.5単位がある。これは2週間に一度、実験レポートを書かされるもので、「実験の手順の説明→実験結果→考察」というような流れの実験レポートを書く機会があまりない情報科学類生にとって、ひとつの試練とも言える。どこぞの大学と違って、「これを落とすと駒場から出られない!」なんて事態は起きないが、3コマ分の実験を再履修するのは大変なことだ。 ところでこの実験、普通のプログラミング課題ではない。ロジックトレーナーと呼ばれる機械の上で配線を行い、論理ゲートやフリップフロップをつなぎあわせて、組合せ回路や順序回路の実験を行い、レポートにまとめて提出するのだ。面倒くさい回路図やタイミングチャートを書かなければならず、レポート締め切り当日の朝には途方に暮れる*1。 そこで私は、レポートを可能な限り楽しむために、タイミングチャ
Google日本語入力のオープンソース版であるMozcが、つい昨日アップデートされました。手書き入力のツールが追加されたことと、いくつかのバグフィックスが主な更新のようです。手書き入力を中心に、軽く紹介します。手書き入力に関して詳しくないので、性能については何も書けません。 手書き入力 「手書き文字認識」というアプリが追加されたので、それを使ってみようと思います。 モデルがない まず起動してみると以下のような警告が出ました。 そこで、handwriting-light-ja.modelというファイルを用意して、/Library/Input Methods/Mozc.app/Contents/Resources/HandWriting.app/Contents/Resourcesに置く*1。 起動 試してみる ↑入力する ↑クリップボードへ送る ↑フォントやフォントサイズも変えられるようです
メモっぽい記事を書くのはあまり好きではないのですが、せっかく調べたので書きます。 Ruby1.9に移行したらどうなるのかはわかりませんけど、日本語の処理に多少の不安を残すRuby1.8にとって、日本語を含むURL、例えばwikipediaなどは扱いにくいです。 Rubyで検索エンジンっぽいものを作っていまして、open-uriというモジュールで日本語を含むURLを開こうとしたらエラーが出てしまいました。 ちなみに私の環境はruby 1.8.7 (2009-06-12 patchlevel 174) [universal-darwin10.0]です。古そうだね。 バイト単位の処理と文字単位の処理を混同してしまうので、文字列処理は難しい。 URLのエンコード ブラウザは、URLにエスケープされた文字列が含まれていた場合それを展開して表示しているようですが、通信するときはエンコードしています。
Mozcとはなんぞ Mozc とは Google 社が開発した日本語入力のオープンソース版の名称です。リリース版はGoogle日本語入力として公開されています。Google 社の工藤拓氏、小松弘幸氏の 20%プロジェクトか ら始まって正式プロジェクトに昇格し、昨年末にはとうとうベータ版から正式リリースになりました。しかしオープンソースにできない部分があるためか、Mozc と Google 日本語入力では機能が少し異 なる部分もあるようです。Google 日本語入力の開発版という位置付けでもあるので、ただ使うだ けなら Google 日本語入力のほうがいいかもしれません。あるいは研究のために改造するのもいいと思います。そのためのオープンソースでもありますので。 Google 日本語入力・Mozc ともにウェブ上の膨大なテキストから変換に必要な情報を生成しています。*1ウェ ブ上のテキストには
HTML5対応を目指している新しいCMSです。はてな記法で記述します。 もともとSQLiteを使っていたのですが、内部的にGitを使えばバージョン管理が楽そうなので、やってみているところです。 git diff, bralme, revertなど、Gitの強力な機能を利用していく予定です。 開発言語はPerlです。ソースコードはgithubで公開されています。 gitを用いた実装はまだ開発版です。gitcmsというブランチで開発しています。 https://github.com/keiya/KeiSpade-CMS/tree/gitcms
VMだったり実機だったり、とにかくUbuntuをインストールする機会が多くなったので、ひとまとめにした。 もっといい方法があったら教えて欲しいです。 大まかな流れ 予めWeb上にスクリプトをUpLoadしておく インストール直後のUbuntuからwgetでDLする スクリプトを実行する ただそれだけ。 スクリプト githubに各種rcファイルを置いているので、gitさえ入れれば設定ファイルも入る。 まだ一度も実行していないので、なにかエラーが起きるかもしれません。 2010/11/26 #!/bin/sh # packages apt-get update apt-get upgrade sudo apt-get install rcconf aptitude sudo apt-get install vim screen zsh sudo apt-get install git-cor
概要 MacPorts無しでGCC4.6入れた。無駄に頑張ったけど、最終的には簡単だった。そのまとめ。私の環境は64bitモードだったけど、他の人のMacで試したときは32bitモードだったので、そこらへんはあまり関係ないみたい。 ところで、gcc-4.6, gcc-46, gcc4.6, gcc46など、いくつかの表記があるんだけど、どれが正しいのでしょうか。 必要なもの wget Git 無きゃ無いで、curl, svnでもできますけど、ここではwget, gitを使います。 GCCのソースコードをダウンロードする mkdir ~/src cd ~/src git clone git://gcc.gnu.org/git/gcc.git mv gcc gcc46 GMP, MPC, MPFRを用意する 最新版がいいみたいです。他のバージョンを試したらはまった。 ダウンロードする 解凍する
このページを最初にブックマークしてみませんか?
『Haroperi.log』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く