サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
デスク環境を整える
kkobayashi-a.hatenablog.com
ImageMagickの-trimオプションでもいいかなあと思っていたんだけど、斜めにスキャンした画像の補正とか-fuzzの調整とか色々面倒。 と思いつつImageMagickを使ったりGIMPの台形補正(遠近法)ツールでシコシコやったりしてごまかしていたけど、どうやらopencvを使うとわりと簡単にできそうなのでやってみた。 OpenCV.jp : OpenCV逆引きリファレンス — OpenCV-CookBook クックブック — opencv 2.2 documentation OpenCV-Pythonチュートリアル — OpenCV-Python Tutorials 1 documentation 最近は便利そうなライブラリはみんなPythonバインディングなのね。Perlがほしい。 「四角」「矩形検出」「python」「opencv」みたいなワードで検索するとたくさん情報やサン
DBなんて触ったこともなかったのですが、WordPressを使いたくなったので渋々DBの勉強をする。とりあえず管理者的なことは置いといて、ユーザーとしてDBの作成と参照ができればいーや、という感じで。 WordPressはMySQLを使ってるらしいので、MySQLの勉強。大雑把なところはこちらのサイトを読めば大体分かるはず。 MySQL初心者入門講座 MySQLクイック・リファレンス ダウンロード 公式サイトからダウンロード。 MySQL :: MySQL Community Downloads 早速詰まる。"MySQL Community Server"と"MySQL Enterprise Subscription"の2種類あるが・・・見たところ無償か有償かっていうのが大きな違いのようなので、Community Serverの方をダウンロードする。 で、また詰まるw何で3種類も! Win
今さらながらpipesがマイブームなのでメモしておく。 そもそも何で今さら?という話ですが、"乃木坂 RSS"で検索すると出てくる胡散臭いサイトがあって、一体どういうものが出てくるのだ?と興味本位で登録してみたらpipesかよ!ということがありまして。 で、改めて調べてみると、XPathが使えてscraperチックなことができそう、ということが分かって、ちょっといじってみるかーとなったわけです。 例題 とりあえずサンプルとして、WUGのニュースからRSSを作成してみることにしましょう。 Wake Up, Girls! 1期シリーズ公式サイト 1. Xpathでタイトルとリンクを取得 Extract using XPath: に "//div[@id='contents']/table/tr" を指定。"id('contents')" という形式は使えないっぽい。 この時点でデバッガウインド
少し昔に流行したマルコフ連鎖で文章を作る話、ちょっと気になってざっくり作ってみた。 どっかから文章をクロールしてくる MeCabとかで形態素解析 マルコフ連鎖を作る 組み合わせる 今回はDMM.R18のレビューから適当にコピーしてきた。形態素解析したものからマルコフ連鎖を作る。 位 から 連続 から 連続 舌 連続 舌 上 舌 上 発射ぐぐってみると、どうやら3階のマルコフ連鎖がよい、とのことらしい。3階と言われてもよく知らないが、まあ3つってことでしょう。Perlで実装する場合、先頭の文字をキーにして、残りを値、最後の要素を次のキーに・・・とすれば2以上の任意のN階のデータが使える。 ただ組み合わせただけでもそれなりになるが、字数の範囲(たとえば100〜200の範囲とか)を決めた方が文章っぽいものができる。とりあずパラグラフを作って、字数の範囲に収まってなかったら捨てる、を繰り返すだけで
https://docs.google.com/spreadsheet/pub?key=0AtjBs4lEumHVdFZrUzRaYmFRYzhtdlNTSTRtbVZKd2c&output=html 随時アップデートしていこうと思います。 output= をtxtとかcsvとか変えると色々なフォーマットでダウンロードできます。 データについてはこの辺をマージしたものです。 某グラの某データ - XXXannex Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (3) 2chを使ったスクリーニング案 - XXXannex どうやら2chのスクリーニングが効き過ぎるらしく、ある程度のスパン(5年以上)で調査するには足りないようです。なので声優一覧をどこかで持っておいたほうがよいな、と思いました。
最近、声優統計の皆様が色々とすごい解析をされててすごいです。 自分も何かせねば・・・ということで、とりあえずデータのクロールでもしておくか、と思ってやってみました。 http://seigura.com/senior/directory/tabid/69/Default.aspx 声優統計における最初にして最大の課題、それは声優名の一覧。Wikipediaは基準が甘すぎるし、一般サイトのまとめは信頼性に欠けるし・・・。その辺の問題をある程度解決できる、声優グランプリ監修の声優名鑑のデータです。ちなみに女性のみです。 CSV : https://docs.google.com/spreadsheet/pub?key=0AtjBs4lEumHVdEpZZW1RdDRRaEJYSW5TNkJidEFRNVE&output=csv HTML : https://docs.google.com/sp
emacsユーザーが大好きなAlt-xキー。私はxyzzyですが、突然Alt-x(M-x)の反応が無くなって焦りました。 どうやら原因はGrowl for windowsが自動的にAlt-x と Alt-Shift-xをグローバルなホットキーに割り当ててしまうせいのようです。超余計なお世話。 対策としては、XPなら%USERPROFILE%\Local Settings\Application Data\Growl\2.0.0.0\user.config(Win7なら%USERPROFILE%\appdata\local\growl\2.0.0.0\user.config らしい。未確認ですが)のキー設定を消します。 <setting name="KeyboardShortcutCloseLast" serializeAs="String"> <value /> <setting name
大量のMP3ファイル(1万ファイル程度)があって、一括でタグを付けたい。が、WindowsではGUIのツールしかないので、すごくめんどくさい。 CUIで処理するには色々方法がありそうですが・・・MP3::Tagというpure perlで実装されたID3タグ編集モジュールがあるらしい。pure perlって。 洗練されたPerl: MP3とPerlで遊ぶ、第1回 MP3::Tag - Module for reading tags of MP3 audio files - metacpan.org MP3::Tag::ID3v2 - Read / Write ID3v2.x.y tags from mp3 audio files - metacpan.org MP3::Tag::ID3v1 - Module for reading / writing ID3v1 tags of MP3 au
今日は仕事が暇だったのでWebラジオをチェックしたりしてて、それでも暇だったので声優言及数調査の「ブレイク」をどうするかについて考えていました。単純な増加数では元々言及数の多い人の変動が大きく出てしまってブレイクにならないし、かといって増加率*1にすると「言及数1→言及数10」みたいな人がブレイク扱いになってしまう。 そんなわけで今年の(2010年分の)調査はpercentileの増加分を考慮してみたのですが、それでも全員のデータをマージして計算したせいなのか、この指標もイマイチだったようで。ちなみに降順ソートするとこんな感じ。 名前 平均増加% 東山奈央 5.2 原紗友里 5.1 早見沙織 4.7 三森すずこ 4.6 佐々木未来 4.5 金元寿子 4.4 高森奈津美 4.4 佐倉綾音 4.3 原由実 4.1 水瀬いのり 3.8 増加率でソートした場合と同じく、元々言及数の極端に少ない層が
googleで検索したらすぐに出ました。 google:cygwin cron cygwin で cron を使う Are You Cygwin Tonight? - cron 手順 まず、Cygwinのインストーラー(setup.exe)からcygrunsrvとcronをインストールしておく。あと、crontab編集のためにvi(m)とかもインストールしておくとよいかも。 インストール後、サービスに登録する。 $ cygrunsrv -I cron -p /usr/sbin/cron -a -ncygrunsrv -S でスタート。 $ cygrunsrv -S croncygrunsrv -Q で状態を確認。 $ cygrunsrv -Q cron Service : cron Current State : Running Controls Accepted : Stop Comma
続き。 Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (1) 2chを使ったスクリーニング案 - XXXannex Wikipediaから声優名一覧を取ってくるPerlスクリプトv2 (2) 2chを使ったスクリーニング案 - XXXannex そんなこんなで(茅原実里的な)、2chの「声優個人」のスレッド一覧を取ってくるところまではできたので、あとはWikipediaの名前リストを使ってマッチングをかけていけばよい。具体的には、スレタイ一覧の文字列に対して、Wikipediaの名前リストでマッチングをかけて、ヒットするものだけを取り出せばよいでしょう。 use strict; use warnings; use encoding 'utf-8'; use LWP::UserAgent; use Web::Scraper; use List::Util qw/firs
この話の続き。 「Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた」をscrapeRで書いてみたよ - XXXannex 前のエントリーに追記してもよかったのですが、内容的に独立したエントリーに分けた方がよさそう。 listから変換 applyから返ってきた結果をいい感じにデータフレームにしたい、という話について、コメントでアドバイスをいただきましたので試してみました。 実際にスクレイピングする必要はないのでコードは簡略化してます。 #出発駅と到着駅ベクトル station1 <- c("渋谷","表参道", "外苑前") station2 <- c("品川","大崎", "五反田") transit.search <- function(from, to){ Cost.v <- 1 Transfer.v <- 2 Time.in <- 3 Time.out
こちらの話。 Rを使ってYahoo!乗換案内から運賃や所要時間,乗換回数を取得するコード書いた - Fire and Motion Rubyでもなく、Perlでもなく、Rでスクレイピングしようというコンセプトがすばらしいです。熱い。 あちらのサイトではスクレイピング部分が結構大変な事になってるので、Rでももっと簡単にスクレイピングできるよ!と思ってちょっと書いてみました。 あとは個人的な趣味として、for文とかif文を使わないでapply系をつかってます。やっぱりRの醍醐味はapplyでしょう(?)。 library(scrapeR) #出発駅と到着駅ベクトル station1 <- c("渋谷","表参道", "外苑前", "青山一丁目", "赤坂見附", "溜池山王", "虎ノ門", "新橋", "銀座", "京橋", "日本橋", "三越前", "神田", "末広町", "上野広小路
が、実行するとこんなメッセージが出る。 rebaseall: only ash processes are allowed during rebasing Exit all Cygwin processes and stop all Cygwin services. Execute ash from Start/Run... or a cmd or command window. Execute '/bin/rebaseall' from ash./usr/bin/rebaseall のスクリプトを見ると、こんなことが書かれてる。 # Verify only ash processes are running grep -E -q -i -v '/ash(.exe)?$' /proc/[0-9]*/exename if [ $? -eq 0 -a -z "$RebaseDebug" ] t
ニコニコ大百科トップページ - ニコニコ大百科 ニコニコ大百科という便利なデータベースがあるのだから、この統計情報を活用しない手は無いよな。問題は、統計情報として何をどうやって取るかですが・・・。 アイ!マイ!まいん!とは (アイマイマインとは) [単語記事] - ニコニコ大百科 けいおん!とは (ケイオンとは) [単語記事] - ニコニコ大百科 簡単に取れるのは「ニコニコ動画の動画数」なのだけど、再生数とかコメント数も考慮したいところ。少ない範囲なら力技でも大丈夫そうだけど、けいおんなんかは300以上動画が上がってるので、それについてコメントを取るのもめんどくさいような・・・。うまいことAPIを組み合わせてできないものかな? ニコニコ動画APIとは (ニコニコドウガエーピーアイとは) [単語記事] - ニコニコ大百科 ところで、ニコニコ大百科の自動転送で表記ゆれをカバーしてるのはうまくで
めも - XXXannexでxpathだけ考えといてスクリプトにしていなかった。 なにやらゴチャゴチャしてしまったなあ。俺のコードはモダンなモジュールを使いこなすほど洗練されてない、というのがよく分かるなw もうちょいうまいこと書けそうな気もするのだが・・・とりあえず動くということで。 use strict; use warnings; use Web::Scraper; use URI; use URI::Escape; use Data::Dumper; use List::MoreUtils qw(uniq); my $uri = new URI('http://ja.wikipedia.org/wiki/Category:%E6%97%A5%E6%9C%AC%E3%81%AE%E5%A5%B3%E6%80%A7%E5%A3%B0%E5%84%AA'); my $uris = scr
いつも分からなくなるので、Hyper Estraierの使い方をまとめる。 Hyper Estraier導入 - XXXannex Hyper Estraierカタログ作成 - XXXannex 現在のHyper Estraier - XXXannex ダウンロード・インストール 全文検索システム Hyper Estraier http://hyperestraier.sourceforge.net/index.ja.html からWindows用バイナリーを入手して、適当なディレクトリに展開する。 管理用コマンド estcmdで管理します。 http://hyperestraier.sourceforge.net/uguide-ja.html#estcmd 検索対象は、HTML、PDF、Powerpointが中心の文書なので、その辺を考慮します。 カタログ作成 まず、一般的な文書について
ローカルのメモ用にPukiWikiを使っているのだけど、編集画面のテキストエリアをもう少し広い画面で見たい!と常々思っていたので調べてみました。 まずテキストエリアの大きさは、 default.ini.php で設定できるらしい。 ///////////////////////////////////////////////// // テキストエリアのカラム数 $cols = 100; ///////////////////////////////////////////////// // テキストエリアの行数 $rows = 30; 終わり。 ・・・というのも寂しいので、リサイズできそうなJavascriptとかあるんじゃないの、と思って探しました。 テキストエリアとかリサイズ可能にする JavaScript The Man in Blue > Experiments > FormTex
winnyにも使用されたRC4!っていうとすごそうに見えるけど、実装はかなりシンプルっぽい。お手軽に使える可逆暗号を探してたので、これはちょうどいいかも。今まではCrypt::CBCでBlowfish + Base64でASCII化とかしてたけど、そこまでするほどか?と思ってきたので。 use strict; use warnings; use Crypt::RC4; my $passphrase = 'crypton'; my $plaintext = 'hatsunemiku'; my $encrypted = encrypt($passphrase, $plaintext); my $decrypted = decrypt($passphrase, $encrypted); print "encrypted = $encrypted\n"; print "decrypted = $d
inspired by: ゆの in Ruby - 冬通りに消え行く制服ガールは✖夢物語にリアルを求めない。 - subtech ゆの in Perl - Bulknews::Subtech - subtech とりあえず書いてみた。 "_"をシンボルとして使うと文法エラーになる・・・ので、仕方なく"v"にしました 自分で書いておきながらよく分かってない(えー) 正式なタイトルは「ひだまりスケッチ×365」ですね setClass("yunocchi", representation(s="character", f="logical"), prototype=list(s="ひだまり", f=TRUE)) setMethod("/", c("yunocchi", "ANY"), function(e1, e2){ v0 <- deparse(substitute(e1)) e1@s <-
ttp://news19.2ch.net/test/read.cgi/moeplus/1165492285/ 29 :なまえないよぉ〜:2006/12/07(木) 21:09:43 id:a2dd6axL >>1 全く知らんけど、こうか ドラマCD・ゲーム アニメ 泉こなた 広橋涼 平野綾 柊つかさ 中原麻衣 福原香織 柊かがみ 小清水亜美 加藤英美里 小早川ゆたか 清水愛 長谷川静香 高良みゆき 中山恵里奈 遠藤愛 黒井ななこ 浅野真澄 前田このみ 成実ゆい 斎藤千和 西原さおり 岩崎みなみ 松来未祐 茅原実里 パトリシア=マーティン 雪野五月 ささきのぞみ 小神あきら 野中藍 今野宏美 宮河ひなた 能登麻美子 ? 宮河ひかげ 田村ゆかり ?
ネタ元 http://www.nyasoku.com/archives/50352203.html ジョーカーを除いたトランプ52枚の中から1枚のカードを抜き出し、表を見ないで箱の中にしまった。そして、残りのカードをよく切ってから3枚抜き出したところ、3枚ともダイアであった。 このとき、箱の中のカードがダイヤである確率はいくらか。 という話で、 後に何を引いても最初のカードには影響しないので1/4 49枚中10枚ダイヤの可能性があるから10/49 という議論があるそうです。元々が大学入試の問題らしく、赤本では1/4が答えになってたそうで。 場合分けするなら 1. 最初のカードがダイヤで、次の3枚がダイヤの場合 1/4 * 12/51 * 11/50 * 10/49 2. 最初のカードがダイヤ以外で、次の3枚がダイヤの場合 3/4 * 13/51 * 12/50 * 11/49 (1の場合)
このページを最初にブックマークしてみませんか?
『kkobayashi_a’s blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く