サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大そうじへの備え
private.ceek.jp
残念…。ということで、昨日(7日)の食事内容です。 夜は、さかいで母親と焼肉を食べました。パクパク。 自分の学士論文(学位論文)を筑波大学の機関リポジトリである つくばリポジトリ に登録したかったのですが、見送りとなりました。筑波大学図書館、指導教員は前向きでしたが、学類が後ろ向きなようです。大人の事情ですね…。いつか登録できますように。 さかい (夜) 焼肉
知能情報・生体工学研究室自然言語処理グループのウェブページをリニューアルしました。知能情報・生体工学研究室(MIBEL)自体のページのリニューアルも予定していますが、先行しての公開となりました。研究室配属を控える学生向けのページという色合いが強いのですが、徐々に一般向けのコンテンツ(説明等)を増やして行きたいと思っています。 と言う事で、研究室配属を控える学生(情報学類3年)向けに研究室説明会(自然言語処理グループ)のご案内です(画像処理グループは日程が異なるので注意してください)。 日時: 2008年12月11日(木) 15:15- 場所: 総合研究棟B 9F 911-2 日時: 2009年1月9日(金) 17:00- 場所: 総合研究棟B 9F 911-1 今年も2回の説明を予定しています。内容は、研究室の概要説明と開発システムのデモを予定しています。が、デモが本当に出来るかは、少々不
うーん。ということで、昨日(6日)の食事内容です。 昼は、神保町のキッチン南海でコロッケカレーを食べました。少し辛めで美味しかったです。ARG の岡本氏と一緒に食べました。図書館の話を少々。 夜は、懇親会が UN QUATRE で開かれました。ちょっと狭かったかな…。色々な方とお話しできて、楽しかったです。 研究会の方は、普通な感じでした。発表は、上野大樹氏(慶應義塾大学大学院)が最も面白かったです。緊張しているのか少々早口だったのですが、内容は良かったですし、参考にしたいと思いました。最後のパネルディスカッションは、良く解らない方向に…。研究再現性の話が、データフォーマットを整える事に流れてしまったのですが、フォーマットを整えてもデータセットが一意でないのであれば再現できないわけで、何時でも誰でも同じデータセットを自由にダウンロードできる環境を整えるのが先決です。詳しくは、そのうち書くと
はてブニュースにデータが反映されなくなっていたため、修正しました。 データが反映されないというか、あるページの解析に失敗して、クローラが停止していました。形態素解析モジュールの仕様だと思うのですが、形態素解析不能な長文が入力すると、止ってしまう…。 ・ぺろぺろぺろぺろぺろぺろぺろ - はてなニュース このページな。 eval を使ってタイムアウトする処理を加えるべきですね…。というか、分類器も弱くなってきているので、作り直したい。 【関連情報】 ・はてブニュース http://labs.ceek.jp/hbnews/
iPod touch でスクリーンショットを作成して、ローカルの PC に保存するまでの手順です。 iPod touch でスクリーンショットを保存する方法は、簡単でした。上部のスリープボタンを押しながら、ホームボタンをクリックすると、一瞬フラッシュしてスクリーンショットが保存されます。 保存されたスクリーンショットは、ホーム「画像」の「保存された写真」というフォルダに格納されています。このフォルダには Safari で保存したウェブの画像も格納されています。Safari でウェブの画像を保存する方法は、画像を指で長押しすると「画像を保存」のメニューが現れるので、それで保存できます。 iPod touch で保存した画像(「保存された写真」フォルダに格納された画像)を PC に移すのも簡単です(Windows XP SP3 で確認)。USB ケーブルで PC を接続すると、カメラ Appl
2004年度未踏ユースに応募して不採択だった僕ですが、周りの勧めもあり、再度チャレンジしてみました。 ・貸出履歴とレコメンドサービス (2008年10月26日) まぁ。このテーマで未踏に応募してみようかな。 ということで、このテーマで出しています。 前回は、当時の著作権制度(現在も同様の問題を抱えたまま)を打ち砕くために、「経済産業省と IPA は文化庁などに検索エンジンが合法化できるように著作権法の改正を働きかけるべきだ」などという主張を行ったのですが(オーディションで実際にこの通り喋った)、今回は、自分で図書館の既存概念を打ち砕けるように頑張ろうと思います(著作権法はそろそろフェアユース規定が出来そうなので様子見)。 現在、アマゾンをはじめとしたECサイト(ショッピングサイト)で、レコメンドエンジンが導入されている。レコメンドエンジンは、推薦システム等とも呼ばれ、協調フィルタリング(C
5年ほど前に購入した書籍。何度か読んでいましたが、やっと全部読み通した。 インターネット時代に生じる様々な課題とそれらに対する知識処理の適用についての解説書。現在における本質的な課題、人工知能をはじめとする知的処理の取り組み、今後のインターネットの方向性についてわかりやすく解説する。 Amazon.co.jp に書かれた紹介文より。 2002年に出版された書籍と言うこともあり、内容が古い。ウェブサービスに関する話は殆ど無く、既存の研究を WWW に適用する試みが解説されており、大本の研究題材を知るのには良いかも。 擁護に関しては、比較的丁寧に解説されているので、論文(日英問わず)をサーベイする前に目を通しておくと、効率良く調べられそう。 なお,XMLはWeb上の構造化文書フォーマット以外に,構造データの表現に利用できる半構造データ(semi-structured data)でもあるというこ
文字列間の類似度を求める方法の一つとして、編集距離が挙げられます。編集距離は、考案者にちなみレーベンシュタイン距離とも呼ばれますが、具体的には、挿入や削除、置換によって、一方の文字列から他方の文字列に変換するために必要な作業の最小回数です。 use List::Util; sub levenshtein_distance { my ($list_1, $list_2) = @_; my $len_1 = scalar(@{$list_1}); my $len_2 = scalar(@{$list_2}); my @d; foreach my $i (0 .. $len_1) { $d[$i][0] = $i; } foreach my $j (0 .. $len_2) { $d[0][$j] = $j; } foreach my $i (1 .. $len_1) { foreach my
文書間の類似度を求める方法の一つとして、コサイン尺度が挙げられます。コサイン尺度とは、2つのベクトルのなす角度であり、文書をベクトル化することにより、文書間の類似度を求めることが出来ます。 sub cosine_similarity { my ($vector_1, $vector_2) = @_; my $inner_product = 0.0; map { if ($vector_2->{$_}) { $inner_product += $vector_1->{$_} * $vector_2->{$_}; } } keys %{$vector_1}; my $norm_1 = 0.0; map { $norm_1 += $_ ** 2 } values %{$vector_1}; $norm_1 = sqrt($norm_1); my $norm_2 = 0.0; map { $nor
図書館利用者の貸出履歴がレコメンドサービスに利用できうることは結構知られていると思うのですが、時系列データを加えると面白そうですね。 現在の協調フィルタリングは、複数人のデータの重複具合を見てレコメンドしてるんだけど、ぼくはこれに時系列データを加えたいと思っています。 数日前に書籍の協調フィルタリングに時系列データを加えた方が面白いという書き込みを見かけ、頭の片隅においていました。似たようなアイデアですが、ニュースの関連記事検索で時系列データを使うと、ある事象を追うのに非常に便利なのではないかと思っていました(数年前に未踏ユースに出したアイデア)。 要約:OPAC(図書館蔵書検索)の検索語にパスファインダーに該当するトピックのキーワードがあるのならば、そのパスファインダーの文献を示してみてはどうかという提案 数日後、図書館の OPAC にパスファインダーの文献も表示すればよいというのを見か
ゆーすけべー日記で紹介されており、さらに 404 Blog Not Found で大絶賛でしたので。 北斗神拳のごとき達人仕事術より、誰でもできる太極拳的仕事術を――。面接の受け方、話し方、読書の方法など、少しの工夫で、ちょっとデキるビジネスパーソンになれる方法を伝授します。 表紙裏に書かれた紹介文より。 巷に溢れる仕事術の本を読んだことあるだろうか。また、その内容を実践できる人はどれだけいるだろうか。という反動が、本書だと思う。難しい事はせず、少しだけで“デキる”仕事人になりましょうと。 少しだけ出来るようになるというよりは、それ以上無理しなくても良いよ…と慰めてくれるような本だと思う。書かれている内容は、上を見てばかりだとつらいよ、横を見るとこんな方法もあるよ、と教えてくれる。話せないなら質問しようね、とか。 若いビジネスパーソンに勧める五冊 著者が二十代で出会っておきたかった書籍を紹
久しぶりに図書館の話題。 ・図書館にも女性専用席 ホームレス対策…「不公平」の声も (イザ!) 東京都内の図書館で、女性専用・優先席を設ける動きが広がっている。現在のところ、23区内220館のうち8館で実施。女性専用車両の痴漢対策というよりは、主な理由がホームレス対策だ。 東京都内の図書館で、ホームレス対策のため女性専用・優先席を設ける動きが広がっているという記事です。ネット上では様々な意見が交わされています。 ・都内在住の方は気管支炎喘息の治療が無料 都内では気管支炎喘息の治療が無料であると言うことを取り上げましたが、この種の助成情報は図書館で得られるのかな…と疑問に思っています(得られないと予想)。図書館は、現実的に「無料貸本屋」であり、書庫に過ぎないのですが、本来は、情報提供の窓口だと思うのです(図書は情報の一種に過ぎない)。そして、助成情報も図書館が扱う「情報」の一種なのでは無いか
iTunes のイコライザ設定例を見つけたので、常用している Windows Media Player のイコライザ設定に反映してみた。 db +3, +6, +9, +7, +6, +5, +7, +9, +11, +8 db 例の通りに設定すると、全体の音量が大きすぎる感じがしたので、全ての値を -3 した。設定する際は、スライダの動き方(左のラジオボックス)を「各スライダは別々に動きます」にしておく必要があるので注意。 低音が響きにくいのだけど、ポップス系では、全体的に良い感じに聴こえる。加えて、自分は、左耳が右耳より悪いので、バランスの設定で、少し左寄りにしてみた(左に寄せすぎると耳が痛くなる)。 イコライザ設定フォームは、メニューを「表示」「拡張設定」「グラフィック イコライザ」の順に辿れば表示される。上部にメニューが出ていない場合は、クラシックメニューが OFF になっているの
Wassr 検索 に、RSS 配信機能を追加しました。RSS Auto-Discovery に対応していますが、下部にもリンクを設けました。 どうぞご利用ください。 と、終わるのもアレなので、利用できる検索式を書きますね。 バックエンドに Tritonn を使用しているため、以下の演算子などが利用できます(独自で拡張もしています)。 ・AND 検索 キーワードをスペースで区切ると AND 検索になります(すべてのキーワードを含む)。スペースの代わりに「AND」「+」で明示することも出来ます。「AND」が含まれるページを検索したいときは「and」と入力してください。 ・OR 検索 キーワードを「OR」で区切ると OR 検索になります(いずれかのキーワードを含む)。単に OR というキーワードを検索したい場合は「or」と入力してください。 ・NOT 検索 キーワードの手前に「NOT」「-」を入
Wassr というサイトが流行っているらしい。 Wassr(ワッサー)とは今何をしているのかを投稿するシンプルなサービスです。 Twitter検索 が便利なので、同様に Wassr を検索できるサービスを作成しました。 残りタスク。 1. RSS 出力 2. メッセージの特殊表記の変換 メッセージの特殊表記は、絵文字の変換などがあります。絵文字は、対応表を作成しないと変換できないのが難点…。まずは、簡単で重要な RSS 出力から取り組みますかね。 どうぞご利用ください。 Wassr を使っていないので、検索機能が準備されているかどうかすら知らない。オフィシャルに同等機能が実装されたら、終了ですかね。ははは。って、1年前にリリースされたサービスかよ!先日リリースされたくらいのサービスだと思ってたよ!検索サービスは今更だなぁ。萎えた。 ※追記(19:37) オフィシャルで検索できることが判明。
Flex SDK は無償で利用可能ですが、総合開発環境の Flex Builder は有償です。ただ、学生であれば無償でライセンスが発行されます。 Adobe Flex Builder 3 Professionalは、「Flex アカデミー」参加校またはCLPに加入している高等教育機関(大学機関、専門学校、高等専門学校)、所属する教員・スタッフおよび学生に対し、無償でライセンスを提供いたします。 商用利用不可という制限が課せられますが、価格が89,250円のソフトウェアを無料で利用できるのは嬉しいですね。実際に Flex Builder を利用したことがないのですが(EmEditor でコーディングしています)、ライセンス発行を依頼してみました。これを機に利用するということで。 今回のライセンスは、以下のページで知りました。 ・Flexのアカデミック版 - PHP,MySQL,Flexな日
現在では、ろう者(全く聴力のない方)に対する理解は広がりつつあります。しかし、それ以外の聴覚障害者(中軽度難聴)に対する理解は、まだまだ広がっていないようです。僕自身、中度難聴相当の聴覚障害者です。 聴覚障害者が理解されにくいのは「音は聴こえている」からだと思っています。 「音」と「声」は似ていますが、全く別物です。「音」を認識できても「声」を認識できるとは限りません。声は、様々な周波数で成り立っていますが、聴覚障害は、各周波数が一律に聴こえにくくなるわけではないからです。僕の場合であれば、聴力は周波数によって 30dB - 90dB という開きがあります。 この事は、大きな声であっても、認識できない場合がることを示します。声が欠けて聴こえているわけで、たとえ大きな声でも判らないものは判らないのです。 聴覚障害者は、「音」「声」「唇」の断片を拾いながら、自身の知識に基づき、頭の中で会話を再
学術機関リポジトリ横断検索の開発を続けていますが、メタデータの要素名の統一の無さにうんざりしてきました。先人に学ぶということで、既に実装されている JuNii+ の仕様を参考にしています。 ・JuNii+ハーベスタ機能実装仕様 - NII JuNii+のハーベスタは次のようなリクエストにより定期的にハーベスティングを行います。 JuNii+ のクロールは OAI-PMH を利用し、独自規格の junii2 形式のデータを収集しているようです。 ・メタデータ・フォーマットjunii2 - NII junii2とは、国立情報学研究所が機関リポジトリの相互運用性確保のために策定したメタデータ・フォーマットです。 junii2 は oai_dc に代わる独自規格のようです。また、ウェブ公開用には Dublin Core (以下 DC)も定義されています(内部データの管理用なので DC といえるかも
Development の話題かもしれませんが、構想は Toshokan に書くということで。 学術機関リポジトリの横断検索を開発します。横断検索を実装した暁には、フィード(RSS)出力機能を付けたいと思います。 宣言した通り開発に着手しました(現実逃避とも言います)。リポジトリシステムに DSpace を採用している機関(64機関)を収集し、約28万件のデータ(タイトルと URL のみ)が集まっています。また、冒頭のスクリーンショットの通り、タイトルで検索できる仕組みを作成してみました。 今後はメタデータの収集を行いますが、予備調査では、各機関のメタデータがまちまちなので統合が難しそうな予感。まずは、使われている要素名の統計を取るところからですね。その後、統合ルールを決めたいと思います。 現在調査中ですが、メタデータ交換プロトコル OAI-PMH を利用すればクロールが楽になりそう(Li
帰省中ですが、図書館の話題です。マウスが無いので面倒…。 某所で「学術機関リポジトリの横断検索を開発する」という宣言をしたため、後に引けなくなりました…。既に 筑波大学学内プロジェクト 機関リポジトリ横断検索 があるんですけどね…。今回は、横断検索の種類について述べたいと思います。 ・はてなブックマーク - はじめての文献複写申込とか - Ceekz Logs ・はじめての文献複写申込とか - Ceekz Logs 長野のやつは、いわゆる横断検索だと聞いてます。現状の各館のシステムは基本そのまま 長野県が県下の図書館にある蔵書を一括検索できるシステムを準備しているということですが、僕は NACSIS-CAT に参加すると思ったのですが、風の噂では「横断検索」になるということです。図書館界隈の「横断検索」と僕の思っている「横断検索」に相違があるかもしれませんが、3通りの実現方法があると思いま
金曜日といわずに週末は図書館の話題ということで。出来るだけ金曜日に書きたいのですが…。 ・CiNii - サービス原価を基礎にした「行革」議論を(上)図書館の貸し出し予約、1冊にも税金から566円--ABC分析で業務の枠組みとプロセス改革を検討する 日本の図書館に関する費用対効果などを示したデータが欲しいと思ったのですが、図書館界隈の方々は認知していないようでしたので、自分で探してみようと思います。 という挑発的な事を書いていたら(図書館の話題はゆっくりひっそりと)、前記の文献を愚智提衡而立治之至也の方に紹介して頂きました。ありがとうございます。 図書館で文献複写申込を行い、入手したのでその顛末など。 筑波大学附属図書館で文献複写申込(私費)を行いました。図書館 Web サービスで行えるということで、ワクワクしながら自宅で申込を行おうと思ったのですが、マニュアルに書かれている「私費文献複写
全角英数字を半角英数字に変換するときは、どのような方法を使っていますか?僕は jcode.pl をずっと使っていました。というか jcode.pl は、手放せないライブラリだったわけです。 &jcode::tr(\$text, '0-9A-Za-z', '0-9A-Za-z'); しかし、常々、正規表現で書くことは出来ないのかと考えていたわけです。書きました。 Perl メモ より $a = qr{(?<!\x8F)}; $b = qr{(?=(?:[\xA1-\xFE][\xA1-\xFE])*(?:[\x00-\x7F\x8E\x8F]|\z))}x; 全角英数字 → 半角英数字 $text =~ s/$a\xA3([\xB0-\xB9\xC1-\xDA\xE1-\xFA])$b/pack("C", ord($1) - 0x80)/oeg; 半角英数字 → 全角英数字 $text =~
金曜日は、図書館の話題をひっそりと。 2週間前と同様、著作権法と図書館(+ 大学)の関係を考えてみたいと思います。 ・「著作権は混迷」「ダメと言ってもネットは止まらない」──東大中山教授 - ITmedia News デジタルコンテンツ協会のシンポジウムでの中山信弘教授(東京大学)の講演を題材にしたいと思います。題材という言い方は不適切ですが、面白い話題に触れられていましたので。 例えば中山教授が大学の研究室で他人の論文をコピーする行為も、「私的使用の範囲を超えているから」著作権侵害に当たると話す。 実際にどのように語られたのか定かではないですが、恐らく「研究室に必要な論文を複製する」という意味だったのではないかと思います。純粋に「研究室」という場所で複製するだけであれば、私的使用の範囲を超えないと思います(私的使用の複製が複製を行う場所で制限されるのであればご指摘下さい)。 「研究室に必
図書館系の話題を追うようになってから、カレントアウェアネス・ポータルのフィードも購読しています。 カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。 3月のリニューアルに伴い、旧リソースにアクセスできなくなりました。 http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=4951 1ヶ月ほど前に取り上げた「インディアナ州の公共・大学図書館の経済効果に関するレポート」という記事のアドレスですが、リニューアルに伴い、アクセスできません。 http://www.dap.ndl.go.jp/node/7272 新リソースは、こちらのようですね。 http://www.dap.ndl.go.jp/ca/modules/car/wp-rss2.php 同様にフィードのアドレスも変更され
図書館の話題を必ず「金曜日」に書くと宣言しておきながら、1日遅れました。これでは、信頼を得ることが出来ませんね…。仕切りなおしながら、信頼獲得に努めたいと思います。 今回は、図書館の話題から少し離れ、書籍や雑誌をユニークに特定する仕組みを考えたいと思います。考えたいというか、知りたいのです。ウェブ本棚システム(積読管理システム)の開発を行いたいのですが、何の ID をベースに管理するか悩んでいます(2月29日 発表会)。 書籍は「ISBN」で管理でき、雑誌は「定期刊行物コード」で管理できそうです。従って、基本的に JAN コード(EAN コード)で管理すれば良いですね(ISBN-10 は ISBN-13 に変換する)。雑誌には ISSN コードもあるようですが、号を特定する仕組みではないため、本棚管理としては不適です。 JAN コードは、書誌情報を Amazon.co.jp で取得できるの
3月下旬に第34回ディジタル図書館ワークショップが開催されます。 図書館情報大学を始めとして多くの組織で進められているディジタル図書館に関わる研究・開発に関する情報交換と議論の場としてワークショップを開いています。 このようなワークショップが開催されているのを初めて知りました。面白そうな講演が行われていますね。もっと早く気が付けば…。 今回は、一般講演に加え、「L-1グランプリ2008 未来のスーパーライブラリアンは君だ」と題したパネルディスカッションを予定しております。 「猫の司書さん」「Project Shizuku」のそれぞれの関係者がパネリストになっています。事前に、双方のシステムが公開されることを期待しています。システムを触りながら話を聴く事ができれば、かなり有意義な時間が過ごせそうですから。 日時: 2008年3月24日(月) 12:00-17:00 場所: 筑波大学 東京キャ
某図書館系 Project のブログは不定期に更新されますが(ほとんど更新されないけど)、本日記では、図書館の話題を必ず「金曜日」に書くと決めています。増やすかどうかは検討中。 ・目録の著作権はどうなってるの? 先週、図書目録の著作権に関する話を書いてみたので、図書館での複製について書きます。著作権法の第三十条は「私的使用のための複製」に関する条項であり、第三十一条は「図書館等における複製」に関する条項です。 この話題を書こうと思ったきっかけは、筑波大学附属図書館(中央図書館)に設置されたコピー機の前に、第三十一条を根拠に複製できる旨は掲示されていますが、第三十条を根拠に複製できる旨が掲示されていなかったからです(最後に顛末を書いています)。 僕が導き出した結論は、以下の通りです。 第三十条 著作権の目的となつている著作物(以下この款において単に「著作物」という。)は、個人的に又は家庭内そ
先日、九州大学法学部が AO 入試を廃止するという報道が大々的になされました。その煽りを受けて、既に決定事項であった、筑波大学国際総合学類の AC 入試廃止も同列に語られているようです。筑波大学の話題も出てきたので、取り上げてみますかね。 九州大学法学部と筑波大学国際総合学類の廃止ですが、理由が異なります。 試験別に入学後の成績を比較したところ、AO入試で入学した学生の成績がほかよりも低い傾向にあったという。センター試験を課す学部では目立った差がなく、基礎学力の不足が原因と判断、廃止を決めた。 九州大学は、入学後の成績が悪いことを理由に廃止しています。 筑波大アドミッションセンターは廃止の理由を、「きめ細かく検討して時間をかける割に、他の入試で入った学生と目立った違いがなかったため」とする。 対して、筑波大学は、目立った違い無かったことを廃止の理由にしています。 九州大学は、何を目的に A
株式会社はてなが本社機能を京都に移すと発表しました。はてな村では大騒ぎですね。 移転に関し、合理的理由が示されていないとか言われていますが、合理的な理由は必要ないと思っています。必要なのは「関係者を納得させること」であり、その解が「合理的な理由」である可能性が高いだけですよね。また、経営の関係者は「出資者・従業員」であり、サービス利用者ではないと思っています。サービス利用者が関係者になりうるのは、サービスの運営方針周り位じゃないかな…。 経営判断がサービスの運用方針に影響する可能性はありますが、運用方針の見解が出ない以上は、スキップして経営判断に口を出すのも変かな…と思っています。「可能性が高い以上は口出してやんよ」というのもアリですが、余計なお世話かも。 という話は、どうでも良いです。株式会社はてなは近藤社長の理想を実現するための箱であり、近藤社長の独断こそが最適解なのです。それを歪ませ
次のページ
このページを最初にブックマークしてみませんか?
『Ceekz Logs (Move to y.ceek.jp)』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く