機械学習界隈の情報収集方法

こんにちは.Machine Learning Advent Calendar (MLAC) 2013の14日目を担当します,[twitter:@kisa12012]です.普段は博士学生として,各地を放浪しながら機械学習の研究をしてます.今回の記事はボストンで執筆しています.現地時間(EST)での締切は守ったのでセーフ…ですよね?
本日は機械学習の技術的な内容の話ではなく,筆者が実践している機械学習関連の情報収集方法について纏めます*1.大きく分けて,学会情報の管理・論文情報の収集・その他の三種について述べたいと思います.今回のトピックの多くは他の分野にも通用する話になっているかと思います.他の分野の方がどのように情報収集されているのかも気になるところです.

学会情報の管理

  • まずは学会情報の管理についてです.機械学習に関連するカンファレンスは(特に近年乱立気味で)非常に沢山あります.全てをチェックして回るのは,極一部の超人を除く通常の人型生物には不可能なタスクです.代表的な学会を個人的な印象とともに,以下に簡単に記載すると*2,
    • ICML/NIPS/AISTATS/ECMLPKDD は機械学習系の最先端の論文が集まるカンファレンス.最新の動向を見るために,必ず採択論文のチェックが必要.
    • UAI/ICLR/COLT は会議毎にクセが強い.機械学習の中の一分野のみを対象としている事が多いが,総じて質は高いため自身が関連する学会はチェックが必須.
    • KDD/IJCAI/AAAI/SDM/ICDM/WWW では上の機械学習手法の実応用への拡張が豊富.WSDM/CIKMも見逃せない.
    • ACL/EMNLP/ICCV/ECCV/CVPR/ICASSP は言語処理・画像処理・音声処理それぞれの分野に適応した手法の提案が多数.ここでのアイデアや手法が機械学習系へ逆輸入されることも多々.
    • VLDB/SIGMOD などのデータベース系でもたまに機械学習系の論文がちらほら.
    • JMLR/MLJ/TPAMIなど,ジャーナルも多数.
  • があります.とても全部は追いきれないため,学会の開催情報や締切情報の効率的な管理が必須です.以前は色々試していましたが,一年程で更新が止まるサービスが多く持続的な管理には不向きな事が多かったです.最近は,自分でWikicfpのリストを管理する方法に落ち着いています.
  • Wikicfp http://www.wikicfp.com/cfp/
    • 主に学会の締切情報管理に利用しています.論文投稿のデッドラインを効率的に管理出来る点で気に入ってます.
    • 自分が管理したいカンファレンスをリストに登録すると,論文投稿締切前や開催前にメールやRSSで連絡をしてくれます.
    • また,アーカイブに過去のカンファレンスを保存しておくと次年度の情報もメール等で連絡してくれます.時系列表示やical形式での登録も可.
    • 筆者が管理しているWikicfpはこちら.上で挙げた会議+αの管理に利用しています.

論文収集

  • 自分の研究と良く似た既存研究を偶然発見してしまい,数ヶ月間の努力が無駄になった経験のある方こんにちはこんにちは.
  • 既存研究サーベイも効率的に出来れば大幅な時間の節約になります.興味のある論文を網羅的に探すための方法として,筆者が実践している方法を以下に纏めます.
  • Arxiv RSS購読 http://arxiv.org/
    • Arxivには毎日のように新しい論文が投稿されています.毎日投稿されている論文のタイトルを斜め読みするだけでも,最近の研究トレンドをおぼろげにつかむことが可能です.
    • 最近はカンファレンスより先にArxivに論文が掲載されることが多いため,Arxiv論文のチェックは必須です.今年のNIPS論文の30%位は採択前にArxivに公開されていたのではないか,というのが個人的な感覚です.[要検証]
    • タイトルが刺さったらアブストを斜め読み,アブストも強烈に刺さったら内容を読む位の心持ち.もしこのフィルタで重要な論文を見逃してしまっても,良い論文ならそのうちカンファレンスやジャーナルに載るはずなので,precisionを優先しています.
    • 機械学習の場合はこちら.
    • 筆者は,stat.ML (機械学習) / cs.AI (人工知能) / cs.CE (計算機工学) / cs.CL (計算機言語学) / cs.GT (ゲーム理論) の五つを購読しています.
  • 企業論文
  • Google Scholar http://scholar.google.com/
    • 機械学習をせっかく学んでいるのだから,論文サーベイにも機械学習の力を利用して楽をしたい.ということで,Google Scholarの論文リコメンド機能を利用しています.
    • 基本的には,自分がこれまでに執筆した論文を基に読むべき論文をリコメンドしてくれます.
    • まずは,Google Scholar Citationsに自身の書いた論文を登録しましょう.
    • すると,My Updatesに論文がリコメンドされます.
    • 執筆論文のみでなくGoogle Scholarの論文アクセスデータもレコメンドに反映されている気がします.[要検証]
    • そのため,学習データとしてGoogle Scholar経由で面白かった論文のクリックデータを与えておくと,それらに似た論文を自動的に集めてくれるようになる……気がします.気のせいかもしれません.

その他情報の収集

  • ブログやニュース記事でも収集したい機械学習関連情報は沢山あります.こちらも筆者が実践している方法を簡単に紹介します.
  • タグ指定はてなブックマーク
    • はてなブックマークではタグやキーワード・ブクマ数を指定して,該当する記事をRSSで引き抜く事が可能です.試しに「機械学習」タグの付いたエントリを全部RSSで引き抜いてみると,機械学習関連の日本語記事が簡単に見つかります.
    • 日本語のブログ・ニュース記事やslideshareのプレゼン資料はこの方法でほぼ網羅出来る印象を持っています.意外なことにノイズもあまり無く一日あたりの分量も多くないため,非常に重宝しています.
    • 筆者は他にも「自然言語処理」などのキーワードでRSS登録をしています.他におすすめのキーワード等を知っている/見つけた方がいれば,是非是非教えて頂けると幸いです.
    • 海外ブログの情報は上の方法ではあまり集められません.筆者がチェックしている海外ブログの一部を抜粋して以下に紹介します.筆者が購読しているブログは他にもたくさんありますが,個人的興味に強く影響を受けているため割愛します.ブログ間でそれぞれの記事を紹介しあう事も多いため,自身の収集対象を少しずつ広げていくのが良いかと思います.
  • Machine Learning (Theory) http://hunch.net/
    • Vowpal Wabbitの作者の一人.VWやカンファレンスのチュートリアル資料等の情報多め.ICML等の運営やStat情報の公開にも積極的なので非常に重宝してます.
  • Machined Learnings http://www.machinedlearnings.com/
    • MicrosoftのResearch/Engineer.大規模データ解析技術の話題が中心.スタートアップエンジニア等も経験されており,論文の解説を超えた実用視点からのコメントが多く,非常に勉強になります.個人的には,データサイエンティストとはこのような人を指す言葉であると思っています.
  • I’m a bandit https://blogs.princeton.edu/imabandit/
    • 確率的最適化やバンディットの記事が多数.Guest Postも多く,それぞれの分野の専門家による機械学習記事を読むことが出来ます.
  • 講演ビデオ
    • Videolecturesが定番です.ICMLã‚„CVPRはtechtalk.tvで公開されていますが,スライドと映像のマッチングがとれていないビデオが多いなど,問題が多いためあまり好きではありません.カンファレンス講演を見るのも良いですが,オススメなのはMLSSなどのチュートリアルの映像資料です.
    • Machine Learning Summer School (MLSS), La Palma 2012 - VideoLectures - VideoLectures.NET http://videolectures.net/mlss2012_lapalma/
    • Machine Learning Summer School (MLSS), Bordeaux 2011 - VideoLectures - VideoLectures.NET http://videolectures.net/mlss2011_bordeaux/
    • Machine Learning Summer School (MLSS), Cambridge 2009 - VideoLectures - VideoLectures.NET http://videolectures.net/mlss09uk_cambridge/
    • Videolectures以外にも良い講演ビデオは様々な場所に転がっています.例えば,Simon instituteのBig Data Programでは,最先端の研究成果発表やチュートリアル資料が大量に転がっています.
    • Big Data Boot Campのビデオを少し眺めるだけでも,相当に力がつきます.このような機械学習イベントが多く開催されている所を見ると,日本との環境の違いを思い知らされますね.講義資料やチュートリアル映像等の探し方は未だこれといった方法が見つけられておらず,アンテナを高く張り続けるしかないというのが現状です.もし良い方法があれば教えて頂ければ幸いです.
  • 書籍

筆者が実践している情報収集方法について,ここまでだらだらとまとめてきました.日々これらの情報を通して基礎体力をつけつつ,自分のタスクに繋げるための勉強として,近年のD論のサーベイ部分あるいは書籍を読む→引用論文で重要なものをピックアップして読む→これらの知識を土台に最近の論文に当たる,のプロセスを回すのが最短経路であると思います.
おそらく2・3年後には,今とはまったく異なる情報収集方法に変わっているものと想像します.日々改良を重ねてより良い方法を探索していきたいです,とありきたりな言葉で本日のMLACを締めさせていただきます.

*1:NIPS2013参加報告を書こうかとも考えたのですが,I'm a banditのブログ記事で筆者が重要だと思ったことの半分程度は既に解説されてしまいました.確率的最適化や近接勾配法まわりの今年のブレークスルーは,こちらの記事を参照すれば大雑把に把握できると思います.それ以外の分野で面白いと思った話については別の機会があれば後日紹介したいと思います. NIPS読み会などでしょうか?

*2:機械学習の「朱鷺の社Wiki」でも機械学習関連の学会情報を簡単に纏められています.