Takeda's Report

備忘録的に研究の個人的メモなどをおくようにしています.どんどん忘れやすくなっているので.

OR2010参加記

2010å¹´07月13æ—¥ | ä¼šè­°å‚加記
OR2010 (The 5th International Conference on Open Repositories)に参加してきました。

私はORにははじめて参加です。ほんとは昨年参加するつもりだったのですが、例のインフル騒動でキャンセルせざるをえませんでした。今回はoral1件、poster1件の共著者です。

日本からはNIIから3名、あと3名ぐらいだったかな。

この会議にきて驚いたことはRepositoryが非常に大きな広がりをもって受け止められていることです。もちろん、このコミュニティにおいてもDspaceやEprintが主要なソフトウエアであるように文献を中心とする機関リポジトリ(Institutional Repository)が中心ではあります。しかし、すでにそこからどう展開していくかをみんなが考え、実践していることがわかりました。

KeynoteでのDavid De Roure (Oxford e-Research Centre)はe-Researchの動向を踏まえ、プロジェクトで行っているmyExperimentというソーシャルサイトの説明を説明していました。myExperimentは研究者版"mySpace"というわけですが、単に文献のshareだけでなく、多様なデータやmethodのshareができることがポイントです。もっぱらバイオインフォマティクスを対象にしているようだけれど、履歴やworkflowのshareといったことができるようです。

またパネルでもリポジトリの概念の広さが垣間見ることができました。Sandy Payette(DuraSpace)はクラウド化しdata curationをするのがリポジトリの次の世界であると述べました。 Francoise Genova (International Virtual Observatory Alliance)も天文学における観測データの共有の現状と今後について述べました。Norbert Lossau (Confederation of Open Access Repositories)はCOARの話でまあRepositoryの連携といったところ。 Stephen Abrams (DataONE / UC Curation Center California Digital Library) はCaliforniaにおける組織連合として、環境データのShareを行っていることを述べました。多くがdata repositoryのことを語っており、ここをどうするかが次世代の鍵となることは間違いないでしょう。

一方、別の点でおもしろかったのは様々な学問分野における情報の共有の仕方の違いです。自分を含めて、研究者はどうしても自分の周りの世界が学問の他の世界でも同じだと考えがちなんですが、実際には論文の位置づけとか情報共有とかの仕組みが分野ごとに違うわけです。それを実感することができました。

とくになぜarXivが重要なのは理解しました。高エネルギー物理(HEP)ではすでに60年代からジャーナルでは速報性に欠けるので世界中の機関間でプリプリントを交換するカルチャーが始まっていて、それがのちのarXivになるわけです。実に90%の情報アクセスはプリプリント(arXiv, SPRIES)に頼っているそうです。あとで北大の行木先生に伺いしたところ数学の世界でもジャーナル論文は時間がかかるので、プリプリントは重要でとりあえずプリプリントでだすそうです。これは僕の知っている工学系あるいは情報系ではないカルチャーです。また先のmyExperimentでも紹介されているようにバイオインフォマティクスではすでに特定のデータの共有は広く行われているようです。

こういった分野特有の文化をどうリポジトリ運営に活かしているかが課題で、それはやっぱり分野の研究者を積極的に巻き込んでいくしかないのでしょう。myExperimentもソフトウエアとしても素晴らしいものですが、やっぱり一つの分野でもいいから実ニーズを取り込んでいるところが迫力をだしているだと思います。

PS. ちなみにマドリッドは40度にも達する暑さで体にしんどいものでした。ただ
W杯の準決勝の日がディナーの夜で、会場のテレビを持ち込んでディナー中観戦というとってもめずらしい状況となりました。実は会議会場はサッカースタジアムの隣でバスで戻ってくると、熱狂する人々の群れがまだいて、これはよい体験でした。

1st Asia-Pacific Culture Portals Summit参加記

2010å¹´02月03æ—¥ | ä¼šè­°å‚加記
先々週は台北で開かれた1st Asia-Pacific Portals Culture Summitなるものに出席してきました。Culturemondoの地域版というものです。Culturemondoとは何かというと、各国、各地域のCulture Portalをつくる人たちの集まりらしいです。

追記:
twitterで綴り間違いをしていました。×Culturemonde ○Culturemondo. またこの記事の表題も間違っていました。×1st Asia-Pacific Culture Summit -> ○1st Asia-Pacific Portals Culture Summit.
私の発表資料はこちら(A New Style Of Creativity)

この会議そのものは台湾の政府のプロジェクトであるTELDAPというところが招待ベースで開催したものです。TELDAPはDigital Taiwanといって台湾の文化遺産、自然史などをWebで公開することを行っています。
Cultureなどと名打った会議に参加するのは初めです。そもそもなんで僕が呼ばれたというと、去年の上海でのASWCのワークショップの招待講演のときに、この会議の主催者の一人であるIlya氏がいて、僕の話をおもしろがってくれて、この会議にこないかとお誘いがあったというわけです。したがって僕が話した話題はまたニコニコ動画と初音ミク話です。Culture Portalと関係ないじゃなのと不安を覚えつついきました。
会議は台湾の人が多いですが、他にマレーシア、インド、バングラディシュ、韓国、イギリスなどの人が参加していました。日本からは僕だけです。20人ぐらいがRound Table形式で座り、順に話題提供をしていくというものでした。話題の一つは実際に文化情報を提供するサイトの運営に関わるものでしたが、それ以外は多様で、文化的ものとインターネットの関わりについての考察などが発表されていました。
僕の発表は好評だったようです。そもそもニコニコ動画は台湾で結構人気で、参加者の人からも自分の子供がよくみているよ、なんてあとで聞かされました。でも単にニコニコ動画ではなくて、Webの創作活動ということも興味を引いていたようです。実際、サマリープレゼンの中でも新しい方向として言及されていました。はじめて内容的なことを理解してもらえたかと思いました。
会議はどうだったかというとなかなかおもしろかったです。最後に初回参加者は感想を言えといわれたので、以下のような趣旨のことをいいました(こんなに長くないですが)。

文化ポータルの議論というのは、アーカイブ的なもの(DeepなWeb)とコミュニティサイト的なもの(FlatなWeb)が内包されていて、議論もどうしても両方にわかれがちです。ここでも各々の発表はどちらかになっています。しかし、議論を概観していると、今はそれが高いレベルで融合できる状況になってきたという気がします。それはWeb技術の発展とWebコンテンツの大規模化という環境の中で、ユーザ側がかわってきたからだと考えています。知の使い方が変ってきたというべきでしょう。
かつては専門家というのは専門の知識があるとことと思われていました。。そして、専門家しか知り得ないことがたくさんあって、専門外の人がはいる余地がありませんでした。ところがいまそういう情報(全部ではありませんが)が大量に公開されて誰でも入手可能になりました。知識があることは専門家の能力ではなくて、その知識を使いこなすことが能力になったわけです。つまり知の能力が定義が変ってきて、知識があることから知識を使いこなすことになったわけです。
そうなると専門的知識は専門家だけのものということではなくなって、我々の思考の素材の一つとして使われるものというわけです。実際、NIIのCiNiiの使われ方をみてそれは現れていると思います。CiNiiは2年前にGoogleで検索可能になってアクセス数が倍増して、去年システム改良で高速検索などができるようなってまた倍増してきました。CiNiiの古典的ユーザである研究者が倍々で増えるわけではないので、一人あたりのアクセス回数が増えたこともありますが、新しいユーザ、大学外のユーザが明らかに増えてます。我々もこんなに活用されるとは予想していませんでした。ユーザがいわば勝手に使い方を発見してくれているわけです。
専門の知識は専門家のものという時代は終わり、ユーザの思考の素材となったときに、文化ポータルといった深い知識とユーザを結びつける活動は新しい価値をもたらすものとして再評価、再発見されるものだと思います。

DC2009参加記

2009å¹´11月08æ—¥ | ä¼šè­°å‚加記
すでにずいぶん前の話になってしまいましたが、DC2009 (In'tl conf on Dublicon and Metada data applications)に出席してきました。場所はソウルの国立図書館。挨拶は国立図書館のChief Executive。

僕はこの会議には実質的に初めてです。最初のアナウンスにあったようにこの会議は研究者とprofessonalの会議。単に研究会議じゃないですね。

追記:DC2009 Proceedingsはこちら。
なお、日本から筑波大学から杉本重雄氏、永森 光晴氏他、国会図書館から2名などが出席していた。日本からは発表で杉本氏のグループ、ポスターでNII(大向、武田)、立命館大学の木村 文則氏らのグループ。

今回はサブタイトルが"Semantic Interoperability of Linked Data"です。Semantic Web研究者としてはこれは興味があります。図書館でどうLinked Dataが使われるのか、どうなんでしょうか。

全体の感想としては、DCMIの活動と図書館系の人のSemantic Webへの取り組みがよくわかったと思います。DCMIとは図書館の情報、人とファシリティをいわばWeb化する活動といっていいのかもしれません。図書館にある情報をWeb化する、それはある意味、至極当然でまあ異論のないところでしょう。一方、図書館員や図書館がWebをメタデータ化するという活動もあるわけです。これは一見無関係のようにみえますが、本や論文が電子化される時代においては、本・論文とWeb上の情報に明確な境界線はありません。その点では同じです。ただ誰がやるかというところで違いが出てきます。機関リポジトリがよい例でしょう。機関リポジトリは大学における情報蓄積、情報公開が目的ではありますが、一方図書館員や図書館というファシリティの活動によるWeb情報公開でもあるわけです。この意味でDCMIの活動は理解できます(ってDCMIを持ち上げすぎ?)
そう考えるとSemantic Web、とくにLinked Dataを次の目標にするのは素直に理解できます。Dublin Coreに基づくWeb化は道筋はついた、次はなにかといえば、もっとメタデータの活用を考えないといけない。Semantic Webはどちらかというと複雑なより構造化されたメタデータをターゲットにしてきた。しかし、Linked Dataで逆にシンプルだけど大量という方向に変ってきています。これならば図書館的世界と近いと考えたのでしょう。確かにあたっていると思います。
実際、Semantic Webに関して強い興味と理解があるのがわかりました。Keynoteの韓国図書館協会会長も半分ぐらいはSemantic Webの紹介に時間をあてていました(ちなみにこの講演は韓国語。同時通訳つき)。多分に国内の人へのPRもはいっていたと思いますが、それでもこのような立場の人の講演でSemantic Webが協調されるというのは驚くべきことです。
もちろん、Linked Dataと図書館的情報には共通点もありますが、相違点も多いです。構造が均質で(比較的)静的な大量データという点は共通点です。しかし、ソースが多様で信頼度が多様であるというのは大きな違いです(でもこれは機関リポジトリ由来のデータにも当てはまるかもしれない)。これをどう克服していくか、そこまではこの会議ではわかりませんでした。


Address。Makx Dekkers (Managing Director & CEO /DCMI)

keynote. Michael Crandall (U. of Washington) Anchoring the Semantic Web
- The Evolution of Dublin Core
- Dublin Coreの復習。Semantic Webへの対応。RDFをベースに。さてDubli Coreとは何だろうか。標準?フレームワーク?オーガニゼーション?人?
- DCの階層。1:語彙の共有(NLでの語彙共有)。2:フォーマルな意味の総合運用性(形式意味論)。3.記述集合の形式の相互運用性(交換可能なレコードの共有)。4:記述集合のプロファイルの相互運用性。
- この会議での主なトピック:レコード中心型のモデルはデータ中心型のモデルにフィットするか?(Tom Baker) / 他の分野とうまくやっていけるのか?
- DCMIの挑戦。スポンサーベースから会員制度の組織へ。創設よりずっと複雑かつ多様な問題を抱える。いまや実装レベルのなっている。それゆえ実装の多様性。創設時よりずっと広いコミュニティになっている。
- DCMIの未来。単に語彙だけじゃない、Linked dataで世界を記述する仕方である。レガシーユーザを未来の方向へ導く。ツールをつくる。教育。
- Dublin Coreとは。15要素。メタデータ標準。抽象モデル。フレームワーク。組織。Greekyaフリークや人々。

Keynote2件目は Eunchul Lee (President of Korea Library Association).
- Semantic Web / Linked dataをきれいにおさらいして図書館における課題へもっていく。
- 図書館におけるLinked Data適用の問題:データの変換(Marc21, DC)、図書館員のIT能力、著作権、アイデンティフィケーション、長期の永続性。
- 名前の同定。FOAFとISNI (International Standard Name Identifier). うん?ISNIは初めて聞いた。ISO標準らしい。これはどのくらい使われているのだろう
か?http://www.isni.org/
- こういう偉い立場にある人がSemnatic WebとLinked Dataとかまで語るのはすごいなあ。日本では長尾先生ぐらいかな。自分の言葉で語る偉い人は。

以下はまた私のtwitter memoの羅列です。
*********************

一般発表:Modeling classification in SKOS by M Panzer (OCLC)
- DDCをSKOSに変換する。Dewey Decimal Classification (DDC)
- 課題。Special types of concepts, inex term, class-topic relationship, internal structure, alternative classifcation, Order in classication

一般発表: using metadata for query refinement and Recommendation by Miao Chen at Syracuse Univ.
- 実際のアプリでいかにmetadataをメリットを出せるか
- ユーザクエリからトピックグループの自動生成

DCMI, Communities and Task Groups by Makx Dekkers
- DCMIの活動の紹介
- DCMIのmission Provide smple standards to facilitate the finding, sharing and managment of information
- DCMI Principles: Open consensus building, Internationl scope, Neutrality of purposes and business models, Neutrality of technology, Cross-disciplinary focus
- What is Dublin Core? / "Legacy" usate: 15要素、ISO15836標準, HTML, XMLSchme表現

午後のセッションはWorkshop: Linking Formal Data
- パラレルでもう一方はよりカジュルアルなデータぽい。こっちはよりフォーマルか。

発表:Dutch gov. metadata OWMS by has Overbeek
- Dutch -> 1200+ org 1600 + website 16M+ citizens
- metadata: Dutch Goverment Core / dcterms: identifyer, tilte, type, creator, moditied
- オランダ政府の各種情報にメタデータをつけるという話。OWMS (Overheid.nil Web metadata standard) Overheid(蘭)=政府。実際どのくらい実践されているだろうか。興味深い。

発表:Linking data Europeana
- EU 2010 information scoeity initiative
- Connecting europan culture
- 課題:多様なメタデータ(生まれ、とか)の利用。メタデータをつかった推論につかえるか。複数のメタデータ間のアライメント
- 現在公開中のEuropeanaのサイト http://www.europeana.eu/portal/  / 実験サイト http://bit.ly/nwKmE

発表: Linking data through Dryad and HIVE project
- Dryad Goal: one-stop deopostion and shopping of data obejct supprrting published
- DRYAD application profile and Singapore Framework: Functional requiremnts documented (Dube et al 2007) / Domain model (Carrier 2007)

発表:Helping Vocabuulary Enginening: SILS metadata Research cnter NESCent, Library of Congress, US Geo. Survy, Getty, LCSH, NBII, TGN
- HIVE (helping interdisciplinary Vocabulary Engineering) HIVE technogical Infrastructure to sotre metadata of concepts from different vocaburary and
avaibale by HTTP
- Dryad: http://datadryad.org/ / HIVE: http://ils.unc.edu/mrc/hive

結局のこのセッションは全部バーチャル発表(プレゼンの再生)3件だった。これではdiscussionどころではないが。。。それぞれのプロジェクトの紹介は興味深
かったが。

次のセッションの発表。

発表:How data is collected and integrated by FAO -- The AGRIS project a portal for resources discovery in agriculture
- AGRIS metadata: 3 M argicultural resources by 150 institutions since 1975. http://www.fao.org/agris/
- Problems: classic bib metadata is too simple. Solutions: metadata is used to link other resources via Web

発表:Semantic Annotation of Scientific Articles by Sudenshna Das at MIND, Mass. General Hospital, Harverd Medical School.
- Science Collabration Framework (SCF): Replicate Alzforum like community / Based on Drupal /Integrated communication tool / Semantic Web
- Enabling semntic annotation. semi-automatic text-mining. currently mining for Gene names and Gene ontology terms, Tissue, organ, cell types

発表:DCMI Information Services by Makx Dekkers at DCMI. DCMIという組織における情報サービスの現状。Web site, RSS, Wiki, twitter, Facebook (まあ
DCMIの活動の宣伝ですね)

DC2009 二日目。

Keynoteは Eunchul Lee (President of Korea Library Association).

ポスターは8件。それをおのおの2分で紹介するmadness session. CiNii紹介のプレゼンあり(by i2k)

DC2009 一般発表。A unified approach for Representing Metadata by Kai Echkert at U. Mannheim.
- Subject headingをつけるときにRDF Reificationをする仕組みを検討。

DC2009 一般発表。 Is Tagging Effective? -- Overlapping Ratio wiht Other Metadata Fields by Wooseob Jeong at U of Wisconsin
- tag語は意味があるのか?
- Youtube videoにつけられたキーワードを分析。
- Title, description, tagで語の重複度。25%でtitle-desc, desc-tagで重複。つまりtagはそんなにキーワードづけに貢献していない。

DC2009 午後のセッション Special session: technical aspects of Linked Data DCMI metadata terms, linked data, and modern syntax standards

発表 "DCMI Metadata Terms, Linked Data, and modern syntax standards" by Tom Baker
- DCMIの4層: 1 Shared (natural-language) definition 2. Shared formal-semantic model 3. shared model for "records" 4. Shared contraints in record
- この辺のDCMIの技術詳細は杉本先生の原稿が参考になります。http://bit.ly/sbnBP
- 1 Shared (natural-language) definition closed systems proprietary system, Web of API, DC-XML/2003
- 2. Shared formal-semantic model Linked data. RDF data extracted from non-RDF formats. DC-RDF, DC-HTML RDFa
- 3. shared model for "records" DCMI abstract model. DC-DS-XML, SPARQL Named Graphs.
- 4. Shared contraints in record DCMI Description Set Profile, SPARQL Query Patterns

三日目。

DC2009 一般発表。Multilayered paper protyping for user concept modeling by Emma Tnkin at UKOLN.
- user modelingは理解するのは大変。例やuser scenarioがあれば。調べ方:ethnographic method & contexual enquiry / Free-listing / Card Sorting

DC2009 一般発表:Metadata framwork for Manga - A mult-paradigm metadata description Framewor for Dgital content by Sugimoto at Tsutuba

DC2009 一般発表:Archiving and Management of digital images based on en embedded metadata framework by Cjien-Cheng Liu,
- 本では紙とデジタルの壁は厚いねえ。日本だと正論では勝てないので、こういうのが五月雨式に始って、なし崩し的になるかな。http://bit.ly/k8Jtf 国会図
書館の図書ネット配信は可能なのか。

- DC2009 TBLのTEDのTalkの再生。http://bit.ly/PmwsA
- TBL語録 "Linked data is extremely simple ...", "Data is relationship.", "Raw Data Now!",

DC2009 発表。 Collorative Curation of Linked Data by Eric Miller
- 名前付けとは:Twitterのハッシュタグ競合
- Power of People, Human Computation
- Raw Data Now -> It takes the big step of fundametally rethinking applications and thier integration. Not app. on the web, but of the web
- A practical use case : The Library of Congress. Digital Preservation http://bit.ly/LfKkq 
- raw dataがあればそれを地図に表示したり、いろんなことができる。
- Linkeda Data Communities: / Enhancing access / Connecting islands of information / Creating and preserving the community
- Eric Miller "Open data opens the door"

DC2009 発表: Scholarly Works Application Profile (SWAP) by Talat Chaudhri from UKOLN SWAP http://bit.ly/3olNHV

SDOW2009参加記

2009å¹´11月06æ—¥ | ä¼šè­°å‚加記
順序が逆ですが、ISWC2009の付設のワークショップSDOW2009 Social Data on the Webの報告をさくっとしておきます。写真の一部はこちら。

ProceedingsはCEUR online proceedings No.520として公開されています。

Invited TalkはUnderstanding and Exploiting Social Data What, Why and How
people write on Social Mediaというタイトルで Meena Nagarajan,
Kno.e.sis Center, Wright State Universityの人。
- Network, People, Content
- Effects of Networked Publics
- Mapping User-Generated content to content
- Dimnsions of Analysis - WHAT , WHY , HOW
- Social Mediaではコンテキストが不足している。それを補わないといけない。NLPとかオントロジーとか。
- Named Entity Recognition: Movie nameとか。
- User Intention Mapping: 意図の推定。/
- 例:
-- BBC SoundIndex
-- Twitris: Know.e.sis. USC: Realtime user perceptions as the fulcrum for browing the Web
彼女の研究グループはSemantic Web Challengeにもでていましたし、ISWC2009で発表がありました。
この紹介のあったTwitrisですが、まさにtwitterのtweetsのコンテキスト推定をして、他のソース(Newsやwikipedia)と連動させるというものです。地域を指定して、用意されたトピックスをクリックするとそれに関するtwitterのつぶやきやnews記事、wikipediaが表示されます。tweet検索にはキーワード集合のようなものを自動生成して付加してるようです。まあうまく動いているようですが、トピック追加は一晩またないといけないようです(index更新?)

一般発表:The NoTube Beancounter: Aggregating User Data for Television Programme Recommendation
- EUプロジェクト。Notube: semantic televison project
- テレビ視聴とWebを融合するとどうなるか、といったプロジェクトらしい。例えばBBCのデータとDBpediaのデータをつなげあわせる。語彙が必要.
- Trend Analysis:コンセプト、シリーズ、場所/文脈等々。個人ごとのパネル表示。
- 推薦: 私の好きなシリーズとか友人が好きなシリーズとか。推薦の説明をつける。
うちでも視聴行動に基づく番組推薦とかをやっているので参考になります。まあそんなに驚くような結果は見せてくれませんでした。

一般発表:Continuous Queries and Real-time Analysis of Social Semantic Data with C-SPARQL by Emanuele Della Valle
- いくつかのmicroblog + Semantics -> SMOB, Smesher, Semantic Tweet
- streamとしてのsemnatic Data -> RDF stream :タイムスタンプ付きのtripleの列。それをqueryがC-SPARQL

一般発表:Mapping between Digital Identity Ontologies through SISM by Matthew Rowe / Social Identity Schmea Mapping (SISM)
- Problem: Monitoring Personal Information Online
- Finder all web resources (Google / Sindice, Waton)
- User meta models to present knowledge
- しかしRDFmodelはオントロジーがわからなかったりす。それでsocial Inditity schema mappingが必要。
- Mapping beween FOAF, Ontology for Vcards, XFN Ontology, Perosnal information model ontology and Neopmuk contact ontology

一般発表:Multiple Personalities on the Web: A Study of Shared Mboxes in FOAF by Jennifer Golbeck,
- 個人プロファイルの統合問題
- DataはblogやSNSサービスから ex. LiveJournal 3M
- FOAF Identifierのunique性で統合。
- 982,912 unique mbox
- 47,563が複数アカウント。
- 83.6%は同じネットワーク内。
- 複数(2 or 5)のaccountのあるmboxを集めて、なぜわけているかを調べる。
- 16のものは30 account / 350 account -> 空白 / 118 account -> たぶんテスト / 108 -> 19歳の女性。中身はない。
- 92のもの -> セレブリティの名前多数(写真も)。17歳の学生。fan fiction sexual role playng gameの作者。
- accountの40個を調査:同じ人物が多数。4つだけが別人のよう。なぜ分けるか? 21歳制限のために分ける
- 性的指向が隠すか見せるかの違い。Fake mail addressの使用。 [email protected] (14回), [email protected] (13)
- Sybil-type attacks (many accounts for vote casting)
- Compartmentalizing / Errors / Groups
- Privacy implications: このデータセットでは明確なことは導けなかった。今回はfoafのみ。Facebook, LinkedINとかをいれうともっと変るかも。 (以上)
- 質問ではprivacy問題があった。Semantic Webは強力な装置なりうる。個人的感想:まあいたちごっこで、もし技術がここまで統合できるとなったら、また人はそれを避けるように行動するのでは。もちろん逃げられないデータもあるんでそこは問題なわけですが。

一般発表 FOAF on Air - Context-aware User Profiles for the Social Web by Sebastian Boehm (Docomo Euro-lab)
- IYOUIT projectの一部。
- IYOUITは去年のISWC2008でも賞をとったもので、携帯のデータを含めた個人行動のアグリゲーションをするもので、システムが結構クールだった。
- そういえばたぶん技術的には関係なそうだけど、こんな記事がでてましたね。
- Data miningの方法で context retrievalをして抽象化、関連づけをして、さらにruleで推論する。 data mining toolであるWEKAを使って推論をする。
- FOAFを使って表現。 MeNow, RELATIONSHIP, VISIT の追加。(以上)

発表者のよるパネル:
- トピック1:microblogのsearchはどうする? linkの性質がちがう。むしろフロー。Golback: social networkの利用。qualifyingが重要。commentからtrust networkをつくるとか。Meena: Evaluation of social applications, 国によってプラバシーの基準が違う、データ利用はどうするか。Q: social dataとしてなぜuser profileだけなの?ほかのユーザデータは?
social dataって定義は? FOAFデータだけ OR Web上のユーザの行動データすべて。(午前はおしまい)

午後再開。The Mobile Wine Agent: Pairing Wine with the Social Semantic Web by Evan Patton
- Sematic Webの古典問題:-) Wine agentの話

一般発表 Semantic History: Towards Modeling and Publishing Changes of Online Semantic Data by Jie Bao
- Webの変更履歴の意味化
- changeの種類、内容、参照
- Semantic history -> reusuable, linkable, fine-grained, app-friendly
- Use of SMW
- application -> query, Stastics, visualization, inference

発表 SiocLog: Providing IRC discussion logs as Linked Data by John Breslin
- IRC dataのセマンティック化。 SIOC, Web IDの利用。


発表 Freemix: Social Networking Meets Data by David Wood
- Speedsheetスタイルのデータを共有してリンクする新しい仕組みfreemixの提案

発表 Social Networks of an Emergent Massively Collaborative Creation Community - Case Study of Hatune Miku Movie on Nico Nico Douga
- hamasaki氏の発表。質問は司会からのみ。Youtubeではそういうことは起こっていないの? 発表内容は悪くなかったと思うけど、喋り内容が未整理な感じ。内容が内容だけに伝わったかねえ、というところ。
- TBLは在室していたけど、携帯をみていて聞いて聞いていなかったよう。

午後のパネル。hamasaki氏もパネリスト。
- Drupal 7でRDFaのサポート。cf. SearchMonky, Google Snippet
- Hamasaki氏出番無し。

全体的な感想
- 多くの発表ではSocial Dataといってもかなりスコープが狭い。基本的にschemaがある(metadataとして明示的に記述されている)ことが前提で、しかもuser profileのみを対象としているものの多数。
- まあここはSemantic Webの会議なのだからしょうがないといけばしょうがないが、もっと広がりがあってもよいのでは。
- その点で我々の研究は前提からして違っていたのでかなり浮いた感じだった。

ISWC2009参加記

2009å¹´11月05æ—¥ | ä¼šè­°å‚加記
ISWC2009 (8th International Semantic Web Conference)がアメリカ、ワシント
ンDCで開かれました。場所は空港近くのWestfields Conference Centerというところで、でなんというか陸の孤島です。まあ籠もって議論しようということでしょう。写真の一部はこちら。

登録者は500人強。去年より微減とのこと。参加者の半数はアメリカから。あとイギリス、ドイツ。この3国で3/4。日本は上位9位にはいっていませんでした。研究論文は250件中の43件で相変わらず高倍率です。日本からはたぶんNICTの兼岩さんだけ。
オープニングでおもしろかったのは、応募論文をテキストマイニングした結果を報告したことです。いくつか紹介すると、Ontologyは確率1...つまり必ず入っている?(ほんと?)、Serviceは採択論文の方が顕著に高い(次はここへ狙えと?)、Resultも高い(まあそうかな)。逆に不採択論文で一番高かったのがCreation (ええ?、まあ最近のISWCではそっち方面はないもんなあ)でした。

全体の傾向としてはやはりLinked Dataが潮流ですが、もはや巨大Linked Dataがあるのが前提で、そこになにを貢献できるかという研究発表が多かったと思います(まあそういう傾向のセッションにでているせいもありますが)。Linked Dataの世界はいまのところ順調に拡大しているので、まあそこにひっぱられるのはしょうがないところです。しかし問題はいろいろあります。Linked Dataの生成問題として、現行の構造データのRDF化だけでいいのか、それともMitchellのような機械学習と統合するのか、あるいはT2のようなユーザ参加型も統合されるかは興味深いところです。また、Linked Data自身の抱える問題、信頼性、統合、更新ということにどう研究が貢献できるか(Cris Bizerの研究はそこを突いているので興味深い)ということがあります。


最初Invited TalkはPat Hayes. blog(web logic)の提唱というか問題提起とその解決の一つとして surfaceという概念を持ち込んだ RDF semanticsの提唱。Hayesのトークは楽しいし、内容には価値がある。しかし、それが本当に言語やシステムに活かされるかというとそれは疑問。司会の紹介であったようにいみじくも「議論の人」ですよね。

2人目のKeynoteはT. Mitchell. Populating the Semantic Web byMacro-Reading Internet Text. / 機械学習の大御所。/ SWの普及の3つの方法。人が構造データ書く。DB公開。計算機が読む。3番目の選択を説明。Webの冗長性の利用。初期オントロジーを発展させる。セミ教師付学習(学習のカップリングで問題を容易化)。繰り返しでインスタンスを増やしていく。多くのルールを学習。実際の学習結果を沢山出していてインパクトがありました。これはいけるかもしれないという印象をうけました。

3人目のkeynote: Present, Personalized and Precise: Defining Search for Web 3.0 by Nova Spivak (Radar Networks) / Vetureの人。Twineを開発した人。Twineの成功と失敗。次のWebは? / Web 3.0 = SW / 次の検索の方向: Semantic,Sharing, Personalized, Tracking, Real-time, KM, Social, Reasoning / SWの問題 / 消費者はSメタデータは足さない / Webmasterもそんな暇はない / 人間はそんなにいいメタデータがかけない。/ 結局、機械がやるべき / T2 (Twine 2) / Web-scale Semantic Search / 例えばレシピサーチ / 材料や状況別に集約してfacet 検索可能 / site mapping toolの提供 /
Focus area: lifestyle (FOOD, health, travel, people) / Etntainment (GAME, ...) /Shopping / Find - Share - Follow / まだT2はfindだけ / Webからの構造データの取り出しは何度となくTryされているけど、まだ特定用途じゃなくてweb-scaleでうまくいった例はないだよね。 今度は成功するか。


Semantic Web Challenge: これはSWアプリを作って競争しよういうものです。もうすっかりISWCの恒例。Open Track (何でもOK), Billion Triple challenge(10億RDFを使うアプリ)の2種類。今回はOpen Trackに16件と過去最大(BTCは3件のみ)。僕はいつからこの審査に参加しています。16件をまず審査委員で6件に絞り込みます。これはPoster&Demoセッションでの説明を聞いた後、審査委員で投票と議論をします。今回は結構白熱しました。以下のものが残りました。
1. Collobrative Creeation of Point-of-Interest: 地図にみんなでポイントをいれ、それにカテゴリをつける。カテゴリは各自でつけれる。まあSWアプリとしてはよくできているけど、Google mapアプリと比較するとどうかな、というところ。
2.LinkedGeoData: OpenStreetMapのデータをRDF化。3億RDF文。Wikipediaと連携も。巨大データを処理した努力はすばらしい。他のアプリの土台としては評価が高いか?
3.Sig.ma: Semantic Search Engineの結果をきれいに統合。ソースごとに信頼OR削除を指示できる。その状態を外部からURLで参照できる(だから編集状態の保存ということはしない)。クールなインタフェース。イイ。
4.Information WorkBench: DbpediaなどのLinked Dataを整理して表示。その場で編集可能。セマンティックな検索も可能。機能的はてんこ盛り。よく作り込まれている。でもSig.maのほうがシンプルで使えるツールかな。
5.TrialX: 治験を受けるために個人記録をマッチさせるしくみの提案。病名などはUMLSなどから。
6.VisiNav: linked dataをfacet検索。検索がとても高速なのとインタフェー
スがとってもCool。
BTC 1: eRDF: 進化アルゴリズムでRDFを検索。意外な結果もだす。スケーラブル。おもしろいが、何に使うの?
BTC2: Scalable Reduction: パラレル処理。3,712 CPU。

結果は1.TrialX、2.VisiNav 3. Sig.ma, BTCはScalable Reduction
審査だと真剣に論文を読んだり説明を求めたりしておもしろいんだけど、疲れました。とくに今回は19件もあったので。もう来年以降はしないかな。



あとは聞いた論文のメモ。

Session for Social Semantic Webの1件目。Analysis of a Real Online Social Network Using Semantic Web Frameworks. SWの世界にsocial networkのレイヤーを追加という話。で、それで?という研究なのだが、これが標準になったりするのだろうか。

Session for Social Semantic Webの2件目。Policy Aware Content Reuse on the Web by Oshani Seneviratne, Lalana Kagal, Tim Berners-Lee。FlickrでのCC Policyの現状と利用調査。70%が違反がある。違反をチェックするvalidationツール作成。Semantic Clipboard: browserでコピーするときにpolicy情報提示。

Session for Social Semantic Webの3件目。Social Trust Based Web Service Composition- by U.Kuter, J.Golbeck - Webサービスのtrustを他のユーザの評価を使って計算。複合サービスのtrustは信頼伝搬(注意深い/楽観的伝搬)。これがBest Paper Award。うーんシミュレーションになぜか映画のトラストデータをつかっている。

In use-track: Vocabulary Matching for Book Indexing Suggestion in Linked Libraries ? A Prototype Implementation & Evaluation / オランダの図書館での語彙統合の話。STITCH Project (Dutch Cultural Heritage )の一環。indexerのためのツール作成。レキシカルだけではなく確信度も。推薦の精度 p:72%, r:47% 実験実施。

In-use Track2 : Live Social Semantics by Harith Alani / RFIDでのリアル出会いを検知する装置とWeb social dataを結合。ESWC2009会議で運用。(うーん、どっかで聞いたような話だが :-) )

Enrichment and Ranking of the YouTube Tag Space and Integration with the Linked Data Cloud by S. Choudhury from DERI Youtubeのタグを処理。時間、場所のタグ分離、関連動画のタグの利用してタグ追加。共起で関係づけ。活性伝搬でタグの重要度計算。WordNetも使いつつタグをLODの語にマップ。実験。追加タグの評価。ランキングの評価。

Produce and Consume Linked Data with Drupal! by S. Corlosquet from DERI / CMSであるDrupalでLinked Dataを扱えるようにする。自動語彙生成。オントロジーマッピング。他. Drupalはそんなに人気なのか? 20万サイトある? Drupal 7からRDFaをnaiveでサポートするそうだ。

Using Naming Authority to Rank Data and Ontologies for Web Search / LDのネットワークのPageRank + ソースのネットワークのRageRank / 単純だとけどいいかも。要読論文

Executing SPARQL Queries over the Web of Linked Data by Christian Bizer /
linked dataのsameAs関係を発見するための各種の関数を用意。それを組み合わせて発見する。WoD-LMP: Linked Dataが変ったときに通知するプロトコルの提案。

Context and Domain Knowledge Enhanced Entity Spotting in Informal Text / UGCでentity spotting 。music いろいろ制限を変えて結果をみる


おまけ。

JWS(J. of Web Semantics)のboard meetingに出席しました。. Elsevierの人がまず社の戦略を語る。Paperを超えたサービスへの試み。化学組成IDとかパテントとかにリンク。Paper以外のデータの載せる実験的取り組み。うーんちゃんとやっているなあ。
JWSのboard meetingとしてはやはりImpact factorで議論。またJournalの立ち位置でも議論。CSではJournalの立場が微妙なのは共通認識。Confでの発表をおまけにつけるとかいくつかアイデアがでるが、とくに結論はでませんでした。

ワシントンは秋の気配で紅葉がきれいでした。足がないので、ホテルから会場まで30分以上歩いて通って、紅葉を担当しました :-)

韓国デジタルライブラリ訪問

2009å¹´10月29æ—¥ | ä¼šè­°å‚加記
もう2週間前になるのですが、DC-2009 (Dublin Core and Metadata Application 2009)という会議でソウルにいってました。この会議の報告はまた別報告して、その会議に一部として韓国国立図書館のデジタルライブラリを見学させてもらいました。
#写真追加 デジタルライブラリ メディアポール

このデジタルライブラリはかなり新しいものです。国立図書館の前庭のような斜面部分に埋め込まれた地下5階地上3階の建物です。中に入るとまずはPCが大量あります。みたことないthin clientがずらっと200台以上、他に3画面PC(さすがにこれはthin clientじゃない)、大画面PCも10数台あります。言語対応というPCもあり、みると異なる言語のWindowsがはしっていました(え、それで言語対応?)。とにかくだだ広く壮観です。他にも大画面PCを集団でみる円形スペース、プロジェクタ画面に直書きができるPCを備えた会議室もありました。さらにさまざまな障害者向けインタフェースをたくさん用意した一角、さらにはスタジオ(録画、録音)まであります。ここはUGCを作るためのスペースだそうです。ところどころに巨大画面もあって、そこでUGCを放映するそうです。さらにはデジタルアート関係も少しあって、大型テーブル型ディスプレイで本をめくるようにデジタルコンテンツをみるものや、動く山水画(中の人や動物が動く)などもありました。あと図書館との連携としては本館にいかなくても図書の貸し借りができたり(これは普通)、ディスプレイで指示するとDVDが横ででてくるATMもありました。
あと入退場、貸借、部屋の利用などはすべてICカードでやります。デジタルサイネージのような大ディスプレイつきのものに自分のカードをかざして操作したりします。

さて、この施設はデジタルライブラリの方向を示しているのでしょうか?まあ結論的にいうとそれはどうかな、という感じです。現状は、とにかくできそうなとをとにかく詰め込んだという印象です。デジタルライブラリなんだからとにかく閲覧PCがないといけない(まあそうだね)。でも単にそれではインターネットカフェ(韓国ならPCバンか)と変わりない。PC上の新聞インタフェースや本インタフェースもまああればいいけど、さすがにもっと大画面が必要。メディアアート系はおもしろいけど図書館としては意味不明かな。UGCに至っては図書館の関係がよくわからないよね。むしろ、これをみて感じるは、やはり施設としてのデジタルライブラリはやっぱり暗中模索であることがわかります。それはソウルがこれがそうでよくないということじゃなくて、そもそもデジタルライブラリとはどうあるべきがはみんながみえていないんだよな、という意味です。その点ではむしろ、このデジタルライブラリはすばらしいといえます。とにかく未来を探るためにいろいろな方向にトライアルをしているという意味で大いに評価できると思います。やらないよりやったほうがいいです。日本は最近なんかこういう気概がなくなっているようなあと感じます。

あと、江南(若者が多い街。新宿みたいなもの?)になるメディアポールなるものも見に行きました。これは街頭におかれた情報端末です。情報端末といったって巨大で、平たい電柱みたいなもので、大通り沿いに50mぐらいごとに建てられています。上部は単なる電光広告板ですが、下部にはタッチ型の大ディスプレイがついていて、いくつかの機能を提供しています。まち案内とか普通の情報端末機能となぜか写真機能がついています。その場で写真がとれて、それはemailで送られます。大ディスプレイなんで、取った写真も自分のemailも周りに丸見えです。これも街中コミュニケーションと割り切れということでしょうけど、ちょっと恥ずかしいですね。あとなにもないときはそこからのシーンに歩いている人を同定して炎?のようなものつけて表示しています。結構使われていていました。

これもまあ機能的になんかすごいことをしているわけではないですけど、こんなモニュメントのようなものを沢山つくっちゃうのもすごいといえばすごい。街をデジタル化するといのも暗中模索だけど、これもまずはやってみようという気概を感じます。

ちなみに僕が泊まっていたところはなんかラブホテルのようなところで(実際そのなのかもしれない)、部屋には巨大ディスプレイとPCがおいてありました。単にテレビかと思いきやちゃんとPC画面も表示できました。ソウルの恋人たちはこのPCで何をするのだろうかと思いつつ、これも日本じゃたぶんないよなあと思いました。
かつて日本の街は外国人からハイテクシティといわれてましたが、デジタル化の時代ではいまやソウルがそれですね。今の日本には、なんでもいいから前に進んでみようという雰囲気がないのが悲しいところです。

ちなみに会議のおまけも極小のUSBメモリとレーザーポインタ付きボールペンで、ハイテク韓国の期待に応えようとしてますよね。

Wikimania2009参加記

2009å¹´09月04æ—¥ | ä¼šè­°å‚加記
空路で気分が悪くなったり、ロンドンで荷物を失ったり、ブエノスアイレスについたときは結構ヘロヘロでしたが、気を取り直して、Wikimania2009に参加しました。

このWikimania2009というのはいわゆるacademic conferenceではなくて、Wikipediaに関わる様々な人々、すなわちWikipediaの運営者、ユーザコミュニティ
の中の人たち、ソフトウエア開発者たちが集まる会議ということです。私はこの
手の会議にははじめて参加しました。とはいえば、会議の雰囲気は普通academic conferenceと大差はありません。
会議の構成もだいたい同じで、Plenary talkが3件、4-5の並列セッションがるという構成です。ただし、セッションの各発表はTEC、CON,COMという印がついていて、それぞれ技術的発表、コンテンツに関する発表、コミュニティに関する発表と仕分けられています。私は技術とコミュニティを中心に聴講しました。

Plenary TalkはRichard Stallman, Jimmy Wales, Sue Gardnerです。Stallmanは大人気でした。

Stallmanは基本的にいつもの話です。ただし、StallmanはWikipediaのやり方に満足していない。主張が集約されないといけないこと、必ずしも「正しい」主張が反映されないことをGNU+Linuxの記述を例にとって説明して(吠えて)いた。そもそもなぜWikimaniaでStallmanなのか。確かにフリーソフトウエアの概念を流用してWikipediaにおける知識共有の概念ができている。しかし、RMSもいっているように運営ポリシーはずいぶん違う。あとでWikipedia Foundationの人と話してわかったのは、RMSはLatin Americaではすごく任期があるのでinviteしたのではないかなと。実際、スペイン語バージョンのTalkは大変な人気だった。

Wikipediaの創始者である、Jimmy Walesは「The State of the Wiki」と題して現状について話を行った。以下は自分のtwitterから
- Wikipediaはとくにかく大きく、世界中に普及した。9言語500k+から177言語では1k+まで広がっている
- >1k+ の言語は2007までは毎年30言語づつ増えている。
- USのアクセスは少しづつ増えている程度だが、他の地域からはとても大きく増
え続けている。
- 言語人口とページ数の関係。ドイツ語はページ数が多い。中国は相対的にててもページ数が少ない。
- 全体としては成長が止まりつつある。ドイツ語も。なzだろう。もう書くことがなくなった?もっと人をまきこまないと。computer geekだけでなく。
- コミュニティは一部の人が支配していることは周知のこと。ここにいるcomputer geekとか
- 分野をみてみよう。トップ100ページをみる。日本語はPop cultureが突出している。
- このトップ100は読者がどれだけみているかということ。
- Wikipediaの方向. 知識の集積はなんののか? pop cultureとは百科事典の方向のうまくあるのか。クオリティは?
- メジャーじゃない言語をいくつか。Arabic、Chuvash
- strategy conversationにやってほしい。face2faceでもオンラインでも。
Wikipeidaはどこにいるかなど。StrtegyWikiにみなさん参加して。
(Q)マイナー言語などではサイテーションがない。そのときは書いちゃいけないのか?
(A)メジャー言語は出版が十分にある。そのときはレファレンスは十分ある.マイナー言語ではその言語じゃなくて他の言語のレファレンスを指すこともある。マイナー言語ではメジャー言語のポリシーを適用するは間違い。例えば英語では900ページのポリシーがある。もちろん信頼できるソースというのは普遍的であるべき。
(Q)方言(カタロニアとか)はどうするの?
(A)方言の問題はローカルコミュニティによる。
(A)成長は基本的に自律的。でもStrategyが効くこともある。インドの言語ではページの大きいところ少ないところがある。

Sue GardnerはWMFの事務局長?。「この1年と次の1年」とだして話をした。マスコミ出身らしくtalkがうまい。まるで、テレビのトークショーをみているよう。Jimmyの話をより具体的にして、アクションとしてブレイクダウンして話した。
- 全ての人が全ての知識をフリーにシェアできる世界を想像しよう
- アジアはまだまだ。中国とは政府と話をした。インドには今度チャプターができる。
- 普通の人を巻き込むためにusablityはてても重要。WMFはusablity projectを進めている。
- Quality問題。Journalistの経験から完璧な正確さなんてない。Wikipediaアカミーの開催。生徒や学生は未来のコントリビューター。NIHのスタッフと一緒になってWikipediaを編集した。
- 集まってStrategyを議論する。これが重要。Sweden Chapterでは実施。

Jimmyのトークでも他の発表でも大きな話題だったのが、Wikipediaの成長の鈍化でした。メジャーな言語における記事数の増加率がさちっている。登録ユーザは横ばいになっている。新規言語も減っている。これに対する原因追及と対策がコミュニティセッションの大きな話題でした。
この点は「Erik Moller: Scaling Up: Can Wikimedia Become A 300 Million People Movement By 2020? 」で詳しく議論されていた。まず原因ついて。昔は足らないところが沢山あったのでちょっとした貢献でも完全でなくても歓迎された。また創業者世代としての気負いもあった。しかし今は、(1)もう赤字がない(ないページがない)、(2)テンプレートを使っているページは編集が大変、(3)たくさんのルール。ではどうしたらよいか。
(1)壊れているところを直す。WYSWYGエディター、マルチメディア投稿のいい仕組み、ユーザビリティ向上、コミュニティ管理、ルールの整理。
(2)マイクロコンテンツを可能にする。コメント、図に対するコメント、段落に対する編集、レビュー、問題報告の仕組み。
(3)コラボレーションの新しいチャンス。ソースチェック、図描画、ビデオ編集、クイズ、翻訳、
(4)何が個々人が貢献可能かを強調する。コンテクスト依存の招待(アイルラ
ンドプロジェクトに参加しようとか)。内容依存の招待(図が足りないとか、)、
個人招待(これやって!)(5)物理的なコミュニケーション(大学とか図書館
tか)を巻き込む。ベストプラクティス。本当の社会運動に!、と。

あとは聴講したセッションから。まずはコミュニティ系。
Sorin Adam Matei, David Braun, Horia Petrache: The structure of social collaboration on Wikipedia contributorの貢献のエントロピーを測ることで、Wikipediaコミュニティの”固さ”を推定する。Entropyが最大ならばみんな貢献しているわけで、Wisdom of Crowdが効いているということ。 大きくなるについて、さちっている。これはWikipediaはだんだん固くなっているということを示している。

Jan Philipp Schmidt: Wikipedia Survey Results - Presentation and Discussion
Wikipedia初の公式サーベイ調査の中間報告。2008年11月に実施。22言語。50以上の質問。30万以上の回答のうち、有効なものは175,000件。 回答最大はなぜかロシア語。次は英語。日本語は5番目。Area の分布は- Culture & arts -> Tech & applied Sciences -> History -> geographyの順。Math&Sci.は自称エキスパート率は高いが、Culture&Artsは低い。しかし貢献が多いというところが面白い。Qualityに関しては、普通の百科事典との比較。信頼性は上位部分(信頼度上位群)では負けるが、中位ではとんとん。深さでは上位群で勝ち。バラエティでは上位群で大差。面白いのはContributor
のほうがReaderよりもコンテンツをシビアにみていること(信頼性で差がついて
いる)。

Mayo Fuster Morell: The governance of digital commons: Wikipedia Governance Case Study
コミュニティが民主的に発展するためにプラットフォームはどうあるべきかについての考察。SIX dimensions of democratic quality 1) information provision easy to use and accessible 2) Technological accessability. 3) Openness to participation in the platform 4) Openness to participation in the provision space. 5) Transparent structure and accountable financial 6) clear and open knowledge management. Distribution of participation in content generation in online communities. Participation as an eco-system 1) Openness to participation 2) Participation has multiple forms and degrees which are integrated. 3) Participation in decentralized and synchronous 4) P.in in public 5) P. is autonomous 6) In part P. is implementation. Scale of views of the Foundation 1) Foundation as an adult proctector fo the community 2) F as a leader. 3) F as any other project which take care of certain issues required to full the mssion 4) Fas a community tool wihtout a voice 5) FasVamire.

次に技術系。
MediaWiki Wave。MediaWikiのeditorをGoogle Wave上で作り替えようというもの。WYSWG, Real time Collobration. MediaWiki Waveのデモ。Google Doc風のドキュメント編集インタフェース、あるいはMediaWikiのEditページで、どちらもrealtimeで更新される。これはすごいかも。

Micah Alpern: Designing a large scale community moderation system for Yahoo! Answers / なぜかYahoo!Answersの話。Yahoo!Researchの人が発表. Yahoo!answersのmoderationは重要。伝統的な方法やMLはだめだった。community-based system
を提案。 コミュニティで自主的に報告して決定するdecision support processをフローとしてつくる。その肝はuserのreputationを使うこと。reporterがcommunityに貢献しているか、reputationはどうなのかなどを計算して、決定の一助にする。この方法でスピードと精度があがった。よしよし。ちなみにO'ReliyのWeb Reputation systemsという本に書いてある
そうだ。

HaeB: Lessons from Citizendium / Wikipediaとは別のfree百科事典プロジェクト /
違い: 実名主義、expertはeditorの役割を持ち、内容の決定権がる。社会的契約、”憲法”のよる統治。
成長しているか?。 爆発はしていない。contributorも記事の投稿数も。記事はむしろだんだん短くなっている。
問題点。Linus' law(たくさんの目があればバグなんて目じゃない)が効いてない。Expertに対する嫌疑。

全体の感想としてはstrageticに進めないといけないというWMF側のメッセージは伝わりました。しかし、それは本当にwikipediaのとるべき道か、あるいはそもそもそんなことは可能なのか(Wikipediaは自律的なコミュニティに支えられている)、という疑問が残りました。確かに巨大化し社会的な影響力ももっている今、まったく無方針というわけにいかないでしょうけど。

ICWSM2009とOR09不参加記

2009å¹´05月13æ—¥ | ä¼šè­°å‚加記
来週 ICWSM2009(3rd Int'l AAAI Conference on Weblogs and Social Media)とOR09(Open Repositories Conference 2009)に参加予定でしたが、昨今の新型インフルエンザの影響でキャンセルしました。
両方とも発表があったので普通に行くつもりだったのですが、NIIでは感染国にいったら5日間自宅待機だそうで、もうこれ以上プレッシャに耐えていくのもなんなんで、やめることにしました。生命的リスクというよりは社会的リスクが怖い状況になっちゃいましたからね。
どちらも内容的にぜひ行きたかった会議なので残念。もっとも会議日程が同一だったので両会議出席という弾丸スケジュールだったんですけどね。:-)

総合学術辞典フォーラム

2009å¹´05月10æ—¥ | ä¼šè­°å‚加記
総合学術辞典フォーラムなるものに参加してきました。

このフォーラムの主題は学術オントロジーの構築です。いわばそのPRのためのフォーラムといったものです。今回はオントロジー構築そのものの話はあまりなく、その周辺に関する諸問題に関する話でした。

プログラム
13:00~13:40「学は何処より来たりて何処へ向かうのか?」原島 博(元東大)
13:40~14:10「オントロジーに基づく学術辞典の設計」橋田 浩一(産総研)
14:10~14:40「百科事典・専門辞典を基点とする情報アクセス」高野 明彦(NII)
14:40~15:10「Web時代の学術情報流通の方向性を考える」武田 英明(NII)
15:10~15:40「大学の知を教育現場が使える形で発信する試み」三宅 なほみ(東大)
15:50~17:00 総合討論

というプログラムです。

面白かったのは原島先生の話でした。
原島先生は東大時代に接点はほとんどありませんでしたが、お話を伺うととても印象的でした。僕は「顔学」でしか知らなかったのですが、情報理論の大家だったんですね(うーん、いまさらながら恥ずかし)。
科学の方向性に関する話なんですが、実体験をもとに話をされて説得力がありました。
ポイントは科学のモード1、モード2というものです。
モード1は科学者自らの好奇心に基づいておこなう自己充足的な研究で、モード2は国、産業界などからの要請を受けておこなうプロジェクト型の研究です。で、モード3はあるのかと。
モード3とは開放型、ロングテール型なのか?
モード3とは発信型、ビジョン型なのか?

この間、私が参加したニコニコ動画分析研究会なんかはプロの研究者というよりは自然にやりたい人が集まった研究会でした。これはモード3なのかそれともモード1への先祖返りなのか。でも重要なところです(終了後、この件は原島先生とも話をしました)。



私の話はかなり混乱気味でした。(三宅先生には「これでもかこれでもかと出てきましたね」と笑われてしまいました :-) :-) )
私の発表資料です。
半分はまあ私の持論である情報流通モデルの話+学術情報流通の課題で、後半はNIIのサービス紹介とオントロジーの関連を語るというものでした。
立場もセマンティックWeb研究者と情報サービス提供者という二つの立場が混在していました。私としてはこれを統一したい、まあそれが今年の目標でもあります。
実際、オントロジーサービスをぜひ開発運用したいと思っています。

フォーラム自身もまだまだ未成熟で焦点がしぼりきれていない感があります。
これから認知科学会、情報処理学会全国大会でも続きをやるようですので、乞うご期待といったところでしょうか。

WWW2009 参加メモ (その4) 一般発表

2009å¹´04月28æ—¥ | ä¼šè­°å‚加記
あとは参加したセッションと気になった発表など。
基本的にsocial network, semanic web, linked dataを中心に聴講。

ちょっとした聴講メモ。

**Social Web**
*** Tagommenders: Connecting Users to Items through Tags
233 Shilad Sen, Jesse Vig and John Riedl
MovieLensやsocial taggingのデータを使ってrecommendationをするという研究。
Basian Networkなど3種類のアルゴリズムをつかい、総合的に推定。
<よく調べられた研究。>

*** Collaborative Filtering for Orkut Communities: Discovery of User Latent Behavior
365 Wen-Yen Chen, Jon-Chyuan Chu, Junyi Luan, Hongjie Bai and Edward Chang
Orkutにおける community recommendation
Association rules mining (ARM)
Latent Dirichlet Allocation (LDA)
の両方を使って比較。
あと並列化の効果。

*** Personalized Recommendation on Dynamic Contents Using Predictive
Bilinear Models
713 Wei Chu and Seung-Taek Park
Yahoo!のトップページのように動的に変わるページをPersonalizeする話。
Colloborative filteringでは新ユーザや新コンテンツ対応が難しい。
ユーザとコンテンツのfeatureを抽出してfeature-basedでrecommendationをする。
<かなり実践的な話のようだ。>

*** Network Analysis of Collaboration Structure in Wikipedia
115 Ulrik Brandes, Patrick Kenis, Juergen Lerner and Denise van Raaij
Wikipediaのedit networkの分析。
<何か新しいのか??>

*** Social Search in "Small World" Experiments
45 Sharad Goel, Roby Muhamad and Duncan Watts
Mirigramの6次の隔たりの検証。
<これは面白い。丁寧に論文を読んでみないと。。。>

Track: Social Networks and Web 2.0 / Session: Photos and Web 2.0

*** Mapping the World's Photos (Page 761)
David Crandall (Cornell University)
Lars Backstrom (Cornell University)
Daniel Huttenlocher (Cornell University)
Jon Kleinberg (Cornell University)

Best Paper 候補
GeoTagの集中度のくらlandmarkを発見。そのLandmarkを代表するphoto
をtagの共通から発見。
逆にラベルのない写真をどのlandmarkかを推定
<geotagつきのflikrのデータの膨大さに驚く。その集中度をうまく使い、画像を解釈せずに処理。うまい。>


*** Constructing Folksonomies from User-Specified Relations on
Flickr (Page 781)
Anon Plangprasopchok (University of Southern California)
Kristina Lerman (University of Southern California)

metadataから隠れた階層構造を発見する。
Flikr自身のcollectionから単語間の階層関係生成
Signifanceで切る。
複数Pathはflow bottleneckで選択
ODPと比較
<これってsematic webの方ではよくやられている手法。画像系だから新しい?>


Mining-5 Andrew Tomkins
*** Learning Consensus Opinion:Mining Data from a Labeling Game
556 Paul Bennett, Max Chickering and Anton Mityagin

Image Gameのデータの分析。
単語と2-5程度のイメージをみせて一つ選択。二人が合うとAgree。
そのときのデータをMS SearchのRankingと比較。
<このMSのlabeling gameネタは2つぐらいあったと思います。そんなに重要な研究なんだろうか。まだよく理解できていません。>

Semantic Data Management

*** Rapid Semantic Web Mashup Development through Semantic Web Pipes
160 Danh Le Phuoc, Axel Polleres, Giovanni Tummarello, Christian Morbidoni and Manfred Hauswirth
Yahoo! PipesならぬSW Pipesの実装
<これは前にも紹介されていたが、普通に使えそうで面白い。>

Linked Data

*** Large Scale Integration of Senses for the Semantic Web
525 Jorge Gracia, Mathieu d'Aquin and Eduardo Mena
たくさんあるオントロジーの同じ概念を統合することに関する考察。
閾値をどこにおくかを実験。

*** Triplify - Light-weight Linked Data Publication from Relational
Databases
1 Soren Auer, Sebastian Dietzold, Jens Lehmann, Sebastian Hellmann and David Aumueller

RDBからRDFを作り出す話。
RDBからRDFを引き出すSQLパターンをたくさん用意しておく。
WordPress とかシステムごとに用意する。
<安直だが、結構はやるかも。>

*** Extracting Key Terms From Noisy and Multitheme Documents
366 Maria Grineva, Dmitry Lizorkin and Maxim Grinev

wikipediaから単語の関係グラフをつくり、そこからNewmanコミュニティを抽出してランキング。それを単語の重要度などに使う。
<え、それでいいのか?>

****
やっぱり5日目ぐらいになるとだれて理解力が落ちてますね。反省。
WWW2009は論文発表はちょっとクオリティにばらつきがある。各トラックごとセレクションが厳しすぎて研究のクオリティにまして論文自体のクオリティが効いてしまっているのかなあ。

(おしまい)