丘の道を登り http://vagus.seesaa.net/ Cannadic改 開発日誌他、雑多なこと ja
  • http://vagus.seesaa.net/article/121969415.html == 最近追記した記事 == 6/13・相変わらず詰めが甘い【追記】6/9,6/13 更に再びツッコミが…。スンマセン… チラシの裏 vagus 2039-06-22T00:35:42+09:00 <![CDATA[ 6/13
    相変わらず詰めが甘い【追記】6/9,6/13
     更に再びツッコミが…。スンマセン…

    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/256866310.html 更新 【追記】3/13,3/25 超久々ですが「作業部屋-angie」の方を更新中です。【追記】3/13もうちょい続きます。【追記】3/25ダメだ、やっぱりこれで一区切りにします orzムダに待たせてしまって済みません。(言い訳: 以前やりかけたまま放ってあったのがあったので(地名とかカタカナ語とか)、それを突っ込もうと思ったんですが、今の時間とモチベーションを上回る面倒臭さだったので挫けました) cannadic改 - 作業メモ vagus 2012-03-10T20:56:59+09:00 <![CDATA[ 超久々ですが「作業部屋-angie」の方を更新中です。

    【追記】3/13
    もうちょい続きます。

    【追記】3/25
    ダメだ、やっぱりこれで一区切りにします orz
    ムダに待たせてしまって済みません。
    (言い訳: 以前やりかけたまま放ってあったのがあったので(地名とかカタカナ語とか)、それを突っ込もうと思ったんですが、今の時間とモチベーションを上回る面倒臭さだったので挫けました)

    続きを読む ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/188622792.html crontab の % の話 JP の「郵便番号データ」は月末最終営業日の 17時過ぎ頃に更新されるらしいので、郵便番号辞書を sf.jp の cron で「月末最終日の 18時」に自動更新させようと思った時のお話。まず、「月末最終日って、crontab にどう書けばいいんだ?」と思った。これは検索したらすぐにたくさん見つかった。「28-31日に『翌日が 1日かどうか』を test してから実行すればいい」。おお、なるほど! Linux vagus 2011-03-03T00:55:17+09:00 <![CDATA[ JP の「郵便番号データ」は月末最終営業日の 17時過ぎ頃に更新されるらしいので、郵便番号辞書を sf.jp の cron で「月末最終日の 18時」に自動更新させようと思った時のお話。

    まず、「月末最終日って、crontab にどう書けばいいんだ?」と思った。
    これは検索したらすぐにたくさん見つかった。「28-31日に『翌日が 1日かどうか』を test してから実行すればいい」。おお、なるほど!

    続きを読む ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/188619084.html Thunderbird: 更新後の「Thunderbird 新着情報」タブを消したい【追記】3/3 正直、かなりウンザリしてます。昨日くらいに Thunderbird の更新(3.1.8)があったと思いますが、Thunderbird って、更新終了後の最初の起動時に「Thunderbird 新着情報」(日本語版の場合)っていうタブが自動で開きますよね? それもそのタブがアクティブな状態(最前面)で。「それが何か?」って言われるかもしれません。 Mozilla系 vagus 2011-03-03T00:22:01+09:00 <![CDATA[ 正直、かなりウンザリしてます。

    昨日くらいに Thunderbird の更新(3.1.8)があったと思いますが、Thunderbird って、更新終了後の最初の起動時に「Thunderbird 新着情報」(日本語版の場合)っていうタブが自動で開きますよね? それもそのタブがアクティブな状態(最前面)で。

    「それが何か?」って言われるかもしれません。

    続きを読む ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/188604100.html 郵便番号辞書更新 郵便番号辞書更新してあります。結局、gendic_zip.rb を一から作り直した。ken_all.csv の丸括弧の中の情報もできるだけ生かそうとしたら、結局 2週間以上かかった…orzでも、まあ、これで曲がりなりにも自動更新できるようになったので、自分の更新の手間はぐんと減った(はず)。変更した主な点・品詞コードを "CNS" から "CN" にした・「0000000」を変換すると辞書のバージョンを候補に出すようにした ex.) 0000000 → 郵便番号辞書:2011.. cannadic改 - 更新情報 vagus 2011-03-02T22:50:33+09:00 <![CDATA[ 郵便番号辞書更新してあります

    結局、gendic_zip.rb を一から作り直した。
    ken_all.csv の丸括弧の中の情報もできるだけ生かそうとしたら、結局 2週間以上かかった…orz
    でも、まあ、これで曲がりなりにも自動更新できるようになったので、自分の更新の手間はぐんと減った(はず)。

    変更した主な点
    ・品詞コードを "CNS" から "CN" にした
    ・「0000000」を変換すると辞書のバージョンを候補に出すようにした
     ex.) 0000000 → 郵便番号辞書:2011年3月版
    ・丸括弧の中の情報(丁目、番地、字・大字など)もできる限り入れた
     (ただし、解釈を間違えてるものがあるかも)


    cron で自動更新する方法も書いてみたので、もしよさそうだと思われたらどうぞ。
    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/184973012.html cannadic改 2010208 リリース 随分間があいてしまいましたが、更新しました。必要な方は、左上のリンクからどうぞ。なお、こちらは原作 Anthy 及び Canna 用です。品詞コードを若干変えたりしてた alt-depgraph の続きは、sf.jp に PersonalForge というのができたそうなので、そっちでやります。と言っても、もはや完全にモチベーションが枯渇したので、更新は年に数回とかそんな感じになると思いますが。あと、郵便番号辞書の配布の仕方を変えました。が、ちょっと問題がぅぅぅ…。「ken_.. cannadic改 - 更新情報 vagus 2011-02-09T00:57:28+09:00 <![CDATA[ 随分間があいてしまいましたが、更新しました。
    必要な方は、左上のリンクからどうぞ。

    なお、こちらは原作 Anthy 及び Canna 用です。

    品詞コードを若干変えたりしてた alt-depgraph の続きは、sf.jp に PersonalForge というのができたそうなので、そっちでやります。
    と言っても、もはや完全にモチベーションが枯渇したので、更新は年に数回とかそんな感じになると思いますが。

    あと、郵便番号辞書の配布の仕方を変えました
    が、ちょっと問題がぅぅぅ…。

    「ken_all.zip* を取ってきて、白井さんの zipcode-make.el で zipcode.t を作成、alt-cannadic.sourceforge.jp に置くスクリプトを書いて、sf.jp のシェルサーバで毎月1日に cron で回す」という感じで完全自動化したかったんですが、シェルサーバの emacs が古いせいなのかなんなのか、手元でやった場合と出力が異なる…。


    * (lzh だけじゃなく、zip でも配布するようになったらしい)

    なので、当面、zipcode.t の作成は手元で行って手動で upload するため、更新が遅れることがあります。
    一応、1日の朝までに上げるよう努力はしますが。

    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/154380100.html 厄介な「な」 毎度お馴染み G-HAL 氏の所より。alt-depgraph-100603「文節のみな」(ぶんせつのみな) が1文節にできない。「文節な」(ぶんせつな) は1文節に出来る。この「…な…」は、多分ここ 20年くらいでよく使われるようになったんじゃないかという気がするんですが、形容動詞の活用語尾の流用なのかなぁ…。あるいは、助動詞「だ」か。ここまでくると、殆ど "引用" に近い使われ方だなぁ…。これが厄介だと思うのは、「語A + な + 語B」とあったときに、この「な」が、前.. 日本語入力 - アプリ vagus 2010-06-25T00:49:27+09:00 <![CDATA[ 毎度お馴染み G-HAL 氏の所より。
    alt-depgraph-100603
    「文節のみな」(ぶんせつのみな) が1文節にできない。
    「文節な」(ぶんせつな) は1文節に出来る。

    この「…な…」は、多分ここ 20年くらいでよく使われるようになったんじゃないかという気がするんですが、形容動詞の活用語尾の流用なのかなぁ…。あるいは、助動詞「だ」か。
    ここまでくると、殆ど "引用" に近い使われ方だなぁ…。

    これが厄介だと思うのは、「語A + な + 語B」とあったときに、この「な」が、前の語(語A)ではなく、むしろ後ろの語(語B)に規定されてるケースがあると思われるからなんですよねぇ。

     …な気がする
     …な訳ないだろ
     …な筈なのに
     …なせいだった
     …なままで

    みたいな。
    後ろの語に規定されるケースは、anthy の depgraph では想定されてない。

    ともあれ、「のみ」や「だけ」も、「文節」(T35) と同じように、弱い接続で接続できるようにしてもいいんですが、誤変換が怖い…。

    # 実は今日、「おおきなもんだいというわけでは」が
    # 「|お起きなもんだいと|言うわけでは|」になって驚いた。
    # 「お起き」は T35。
    # この「な」が何の「な」なのかは未確認ですが、多分、
    # 「@_名詞35のあと "" Hj.@形動ダナ連体形」
    # まぁ、例文登録すれば直るとは思いますが…

    悩む…

    続きを読む ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/154363528.html 目が点になった 〈代表リポート〉「勝つために、2年半やってきた」 - asahi.comW杯予選突破のかかったデンマーク戦を控えた岡田監督への(?)質問。――もしデンマークに負けたら、そのときの心境は。最近ニュース見てなかったからかもしれないけど、久々に見たな。超絶破壊的バカ質問。質問したの誰ですか? 日本人? デンマークの記者?「マスコミ バカ質問コンテスト」みたいなのがあったら、エントリさせたい…。 チラシの裏 vagus 2010-06-24T22:04:37+09:00 <![CDATA[ 〈代表リポート〉「勝つために、2年半やってきた」 - asahi.com

    W杯予選突破のかかったデンマーク戦を控えた岡田監督への(?)質問。
    ――もしデンマークに負けたら、そのときの心境は。

    最近ニュース見てなかったからかもしれないけど、久々に見たな。
    超絶破壊的バカ質問。

    質問したの誰ですか? 日本人? デンマークの記者?
    「マスコミ バカ質問コンテスト」みたいなのがあったら、エントリさせたい…。
    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/153983762.html alt-depgraph: ToDo ・「…しおる」を出せるようにする(「…しよる」は保留)・「…してんだ{よ,から,けど,etc}」を出せるようにする・「…に|立って」と区切るようにする(|舞台に|立って| etc)・「ご覧」「御免」「お止め」「お帰り」のような動詞丁寧語表現を別品詞にする(OKX 復活?)動詞丁寧語は元々は OKX だったけど、「する接続」の有無をコントロールしたくて名詞の品詞コードにした。でも、それだと上記のような「する接続無し」のものの「…なさい」が誤変換を起こす。条件・語幹が名詞か否か・.. 日本語入力 - アプリ vagus 2010-06-21T20:31:17+09:00 <![CDATA[ ・「…しおる」を出せるようにする(「…しよる」は保留)
    ・「…してんだ{よ,から,けど,etc}」を出せるようにする
    ・「…に|立って」と区切るようにする(|舞台に|立って| etc)
    ・「ご覧」「御免」「お止め」「お帰り」のような動詞丁寧語表現を別品詞にする(OKX 復活?)

    動詞丁寧語は元々は OKX だったけど、「する接続」の有無をコントロールしたくて名詞の品詞コードにした。
    でも、それだと上記のような「する接続無し」のものの「…なさい」が誤変換を起こす。

    条件
    ・語幹が名詞か否か
    ・「する接続」の有無
    ・「する接続無し」のものも「…なさる」が付く
     「…下さい」は大抵誤変換しないし、漢字表記を使いたいので一文節にはしない

    こんな感じか?

    compound.t のマージ作業が終わったらやる
    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/153500911.html これはコロンブスの卵かも Mozc Issue 11: Suggestion: hybrid conversion engine要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。 日本語入力 - 一般 vagus 2010-06-17T00:58:36+09:00 <![CDATA[ Mozc Issue 11: Suggestion: hybrid conversion engine

    要するに、「Mozc は最小コスト法を採用してて、長い文章の変換は得意だけど、短い文節は苦手。短い文節の変換は N文節最長一致が得意。なら、読みが短い場合には N文節最長一致を使う hybrid engine にしたら?」ということだと思いますが、これは面白いかもなぁ(Mozc では却下みたいですが)。

    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/152844232.html git 自分メモ $ git clone git://git.example.com/hoge.git$ cd hoge;; base にしたい commit を checkout$ git checkout [base にしたい commit-id];; 自分が作業するためのブランチを作成$ git checkout -b mybranch...;; 「ファイルを更新し commit」を繰り返す...;; パッチ作成;; 自分が mybranch に commit した分をすべて番号付きで .. Linux vagus 2010-06-11T01:16:25+09:00 <![CDATA[
    $ git clone git://git.example.com/hoge.git
    $ cd hoge
    ;; base にしたい commit を checkout
    $ git checkout [base にしたい commit-id]
    ;; 自分が作業するためのブランチを作成
    $ git checkout -b mybranch
    ...
    ;; 「ファイルを更新し commit」を繰り返す
    ...
    ;; パッチ作成
    ;; 自分が mybranch に commit した分をすべて番号付きで "出力先ディレクトリ" に出力
    $ git format-patch -o [出力先ディレクトリ] master..mybranch


    format-patch で作成されたパッチは、git am で適用すると commit までしてくれる(commit log はパッチにあるものが使われる)。git apply で適用すると、ファイルの更新までで commit はされない。

    git am でも git apply でも、ファイルのアクセス権の設定までやってくれるらしい(いちいち、スクリプトに chmod +x とかしなくていい)。

    参考:
    [git:ブランチの内容をマージする]
    [Pro Git - プロジェクトの運営]
    [How to create and apply a patch with Git]
    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/152744684.html update_params に掛かる時間 時間かかるんですよねぇ、こいつは。相変わらず make update_params0 ; make update_params ; make update_params2 ; make update_params2 が完了するまでに80分くらいかかるし……。現状、過去版、安定版、試験版、の3系列を持っているから、 この更新だけで4時間以上は消費してしまう……。お疲れ様です。ウチは、先日 MacBookPro にしたおかげで大分速くなりました。G-HAL 氏版だと update.. 日本語入力 - アプリ vagus 2010-06-10T00:28:36+09:00 <![CDATA[ 時間かかるんですよねぇ、こいつは。
    相変わらず make update_params0 ; make update_params ; make update_params2 ; make update_params2 が完了するまでに80分くらいかかるし……。
    現状、過去版、安定版、試験版、の3系列を持っているから、 この更新だけで4時間以上は消費してしまう……。
    お疲れ様です。

    ウチは、先日 MacBookPro にしたおかげで大分速くなりました。
    G-HAL 氏版だと update_params2 1回が 10分くらい。
    原作版だと 5分前後なのでほとんど気にならなくなった(だから 5回もブン回したりした)。

    NetBook とかの非力なマシンでやったらどのくらいかかるんだろうか?
    持ってないから試せないけど。

    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/152640060.html 相変わらず詰めが甘い【追記】6/9,6/13 G-HAL 氏からの突っ込み発見。誤:% gpatch -p1 -N &lt; ../alt-depgraph-100603/alt-depgraph_*../alt-depgraph-100603/alt-depgraph_*: Ambiguous.%正その1:$ cat ../alt-depgraph-100603/alt-depgraph_* | gpatch -p1 -N正その2:bourne shell の場合。$ for FILE in ../alt-depgra.. 日本語入力 - アプリ vagus 2010-06-08T22:00:38+09:00 <![CDATA[ G-HAL 氏からの突っ込み発見。
    誤:
    % gpatch -p1 -N < ../alt-depgraph-100603/alt-depgraph_*
    ../alt-depgraph-100603/alt-depgraph_*: Ambiguous.
    %

    正その1:
    $ cat ../alt-depgraph-100603/alt-depgraph_* | gpatch -p1 -N

    正その2:bourne shell の場合。
    $ for FILE in ../alt-depgraph-100603/alt-depgraph_*
    > do
    > gpatch -p1 -N < $FILE
    > done

    「あれ? 出す前にやった時は通ったけどな」と思ってもう一度やってみたら "Ambiguous."…。
    なぜ、前は通った…。
    ともあれ、ご指摘ありがとうございます。
    calctrans/divide.sh
    depgraph/mkdepword
    chmod +x 忘れ?

    そうでした orz

    というわけで、訂正メール出しました。
    いつもすみませんです…。

    しかも、alt-depgraph-100603 の G-HAL 氏版 Anthy 用のパッチを作ってたら、すでに対応済みだった…。
    しまった。こっちを先にやっておけばよかった。

    ごめんなさい。

    # gendic_zip.rb は元々は公開するつもりはなかったので、
    # ruby1.9 限定で書きました。1.9 の方が楽なので。ご了承下さい。


    【追記】
    今思ったけど、「patch < *」の件は、前にも G-HAL 氏にご指摘を受けたような気がしなくもない…

    【追記】
    anthy-9100h.patch13B-23-iconv-ucdict.2010512.alt-depgraph-100603.alt-cannadic-100603.zipdic-201005-patch100608.tar.lzma

    確認したところ、問題ありませんでした。
    ちょこちょこいじるところがあったはずなんですが、さすがです。

    …というか、例文に変換できない奴があるな orz

    【追記】6/9
    続きを読む ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/151731266.html 郵便番号辞書更新 Anthy 用郵便番号辞書を更新しました。左上のリンク(zipdic-201005)からどうぞ。郵便番号辞書については、多分、そのうち新部さんの方に引き取られて、自分はお役ご免になると思います。引き継ぎの意味で変換スクリプト(gendic_zip.rb)も同梱しましたが、普通の人は無視して下さい。 cannadic改 - 更新情報 vagus 2010-06-01T00:56:32+09:00 <![CDATA[ Anthy 用郵便番号辞書を更新しました。

    左上のリンク(zipdic-201005)からどうぞ。

    郵便番号辞書については、多分、そのうち新部さんの方に引き取られて、自分はお役ご免になると思います


    引き継ぎの意味で変換スクリプト(gendic_zip.rb)も同梱しましたが、普通の人は無視して下さい。

    ]]><![CDATA[ ]]>
    http://vagus.seesaa.net/article/151730566.html とりあえず何とかなったっぽい【追記】6/2, 6/3 git に不慣れで随分手間取ったけど…。もうちょっと確認して問題なければ明日あたり送る予定。【追記】6/2一応できた。【追記】6/3余計なことしてたら、作ったところで今日は力尽きた…。メールは明日だ 日本語入力 - アプリ vagus 2010-06-01T00:43:44+09:00 <![CDATA[ git に不慣れで随分手間取ったけど…。

    もうちょっと確認して問題なければ明日あたり送る予定。

    【追記】6/2
    一応できた。

    【追記】6/3
    余計なことしてたら、作ったところで今日は力尽きた…。メールは明日だ

    ]]><![CDATA[ ]]>