Processing math: 0%
ラベル データ処理 の投稿を表示しています。 すべての投稿を表示
ラベル データ処理 の投稿を表示しています。 すべての投稿を表示

2016年11月18日金曜日

機械学習に関連する学会のクラスタリング

機械学習周辺の学会/論文誌が多くて関連性がよくわからなかったので,引用関係をもとに可視化してみました.マウス操作で拡大/スクロールしたり,マウスオーバーで関連エッジが強調表示されたりします.


全画面表示 / ソース

元データには Aminer が公開している Citation Network Dataset を使っています[1].
[1] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su.
  ArnetMiner: Extraction and Mining of Academic Social Networks.
  In Proceedings of SIGKDD'2008. pp.990-998.

ノードが各論文誌/講演会に対応しており,各ノードのサイズは被引用数を示しています.より具体的には,50件以上の引用/被引用の関係があるノード間にエッジを生成し,引用数に応じた引力と斥力に基づいた運動をシミュレーションすることで,クラスタを形成させています.

ICML(緑色のノード)などのいわゆる機械学習の学会は(近年のブームのせいか)同種内の引力よりも周辺分野からの引力が強いようで,面積が大きい緩いクラスタを形成しているようです.

機械学習の周辺ではコンピュータビジョン,言語処理,ニューラルネット,人工知能などが目立つクラスタを形成しており,データマイニングは機械学習と同様,面積が大きい緩いクラスタを形成しています.

自分の専門が制御理論なので,制御分野の論文誌である Automatica(赤色のノード) と機械学習のトップカンファレンスである ICML (緑色のノード)の近傍にある学会を抽出して可視化してみましたが,大本のデータが DBLP で,制御理論の分野の引用関係があまり収録されていないので,制御分野については寂しい感じになっています.
信号処理とロボットが制御分野の近くでクラスタを形成しており,これらとコンピュータビジョン・ニューラルネットが機械学習との間に位置しています.また,最適化や応用数学のクラスタが制御の近くにあるのもわりと納得です.

前述したデータセットの処理には python および NetworkX, ノードの配置に Gephi,可視化には D3.js を利用しています.これらの有用なソフトウェアを開発・公開されている方々に感謝します.

あと,超重いですがコンピュータ関連分野全体を可視化したものも置いておきます.
https://maruta.github.io/visnet-dml/full/

2012年1月24日火曜日

楕円と直線

グラフは効果的な表現技法ですが,
不適切な表現で誤った印象を与えかねないものも多くあります.
(参考:3D円グラフを使うのはやめよう | Okumura's Blog

勘違いしやすいグラフには幾つかパターンがあって
注意していれば間違うことはあまりないですが,
最近ちょっとおもしろいパターンを見つけたのでメモしておきます.

まず上のグラフを見てください.黒い点は誤差を含んだ計測値で,
赤い線は y=\frac{1}{3}x ,青い線は y=2x  の式を表しています.
この場合,赤線は青線よりも計測値の傾向をよく表現しているように見えます.

一方,このグラフでは青線のほうが赤線よりもデータ点を良く表しているように見えると思います.

しかし,実はこれらの2つのグラフは縦横の比率と表示範囲を変えただけで
全く同一のグラフです.

つまり,同じデータに対して,左の図を書いて y=\frac{x}{3} の関係があると結論付けることも右の図を書いて y=2x の関係を主張することもできてしまうわけです.

ちょっと不思議な感じがしますが,
  • 線形変換は楕円と長軸の関係を保存しない
  • 人間は楕円状に分布するデータを見ると無意識に長軸の方向に線を引きたくなる
といったことに留意すると納得できるかなと思います.

教訓は,「楕円状のデータにあてがわれた直線の傾きで結論が出されているのを見たら,その直線がどういう基準で引かれたものか注意しなければならない.」ということでしょうか.


おそらく Google Chrome 以外のブラウザでは動きませんが,
スライダーで縦横比を調整できるグラフも下においておくので
良ければ納得がいくまで遊んでいってください.