はじめに
最近は機械学習という言葉、とくにDeepLearningなど耳にした方多いかと思います。
機械学習(Machine Learning)とは、沢山のデータから様々な手法、規則にを利用して解析を行い、ある特定の検知・分類・判定を行うような仕組みです。
機械学習は身近なところにも存在します。
- あなたにおすすめの商品/こちらの商品を買った人はこちらの商品を買っています
- 画像認識
- 音声認識
- スパムフィルタ
- 異常値検知
- チェス・将棋のAI
さらに、下記のような機械学習のクラウドサービスが出てきて個人でも容易に動かせるようになりました。
- Azure Machine Learning
- Amazon Machine Learning
ただ、実際に機械学習を動かすとなると、データはどうするんだという問題が発生すると思います。 (結構膨大なデータ量が必要になることが多いです。)
今回は機械学習のやり方はもうすでに沢山のサイトがあるので
- 実際には膨大なデータ量が必要でサンプルの学習しかしたことがない
- アイデアはあるけど、実際そうなるかわからない、試すにもデータ作成は面倒だ
- データ作成が面倒だけど、オリジナルの機械学習をしてみたい
※ 2016/4/25 のまとめです。古いデータの可能性もありますのでご了承ください
オープンデータ・研究目的に公開されているデータ
Open DATA METI
経済産業省がオープンデータを実践するために設置した試験サイト。
Open DATA METI
- 白書・統計などの公表データ
- 報告書などの公表データ
各自治体(都道府県・市区町村)のオープンデータ
各自治体が公表しているオープンデータ。世界各国で、行政機関が保有する公共データを公開する流れが強くなっています。
クリエイティブ・コモンズ等の表記もあり、二次利用許可している場合もあります。
東京都オープンデータ
世田谷区オープンデータ
いわき市オープンデータ
静岡市オープンデータ
- 病院の位置
- 駐車場の位置
- 他多数(サイト見てもらったほうが早いです)
病院とか駐車場の位置とか公開されていたり、機械学習以外でもなんか利用できそうな気分になります。
政府統計
国が行っている公的統計のさまざまな統計結果がみれます。
政府統計 e-Stat
国立情報学研究所
国立情報学研究所が情報学関連分野の研究者に提供しているデータです。
- 基本的に研究目的でのみ利用可
- 一部、研究機関に所属していないとNGも有るので注意
情報学研究データリポジトリ
- Yahoo!知恵袋データ
- 楽天市場の商品データ,レビューデータなど
- ニコニコ動画コメント等データ
- ニコニコ大百科データ
- ホットペッパービューティーデータ
- クックパッドデータセット・レシピデータ・献立データ
- HOME’Sデータセット・賃貸物件データ,画像データ
- 国文研データセット 古典籍データ(書誌,画像,タグ,本文テキスト)
- NTCIRテストコレクション
- 音声コーパス
企業・機関
- データ詳細(東京メトロ全線の列車位置、遅延時間など)
- 商業目的の利用は禁止
- アプリ等への広告掲載、アプリ等内での課金は禁止する
- 利用目的は研究に限定
- 静画メタデータ/静画データ
- 学習済みニューラルネットワークモデル
- 非商用、研究目的のデータセット 要研究機関所属
- メタタグ付き写真・動画
- 非商用、研究者向けにのみデータを配布
- メタタグ付き写真
まとめ
ここで紹介したサイト以外にもオープンデータ、公開データは沢山あります。
もちろんサービスを作るとなるとそのまま利用する訳にはいかないデータもありますが、まずは取っ掛かりとしてこの中から、興味がある分野のデータを元に機械学習を試してみるのはいかがでしょうか。