bohemia日記

おうちハックとか画像処理、DeepLearningなど

機械学習をやると、AIより人間の方が詳しくなる現象

こんにちは。ぼへみあです。

機械学習がすっかりブームになって、仕事や趣味でディープラーニングを使ったことがある人が増えていると思います。
特に画像分野でディープラーニングは成果を上げているので、特定のものを判別・識別するといった事例が多いかと思います。
そうした画像系のディープラーニング経験者なら経験する現象があります。

それは、
「その分野について、作ったAIよりも自分が詳しくなる」
という現象です。

おそ松さん見分けの第一人者になってしまった

以前取り組んだおそ松さんの6つ子をディープラーニングで見分けるネタでは、学習用データセットの作成のために、自力で5000枚以上のおそ松さんたちを見分ける作業を行いました。その結果、アニメを見ても、これは何松だ、と判断できるようになってしまいました。当時はおそ松さんを見分ける能力は誰にも負けない自信がありました。

なぜか学会でおそ松さんの話をする機会があったのですが、その時にAIの有能さを示すために、自分はどれだけ見分けられるのか検証して比較しました。条件はAIの入力と同じ、ストーリーの流れや声の情報もない、ただ切り取られた顔だけを見てどの程度判別できたかを試してみたのですが、6人を73%の精度で判別出来ました。混同行列とかもあるので、詳しくはこちらのスライドで。

アイドル好きのすぎゃーんさん

アイドルを題材にTensorFlowで色々活動されているid:sugyanさんも、自力でデータセットを作られています。
元から年間100以上現場を駆け回るドルオタな方なのですが、自分の好きなアイドルを機械学習の題材として選びました。 その結果、1000人以上のアイドルの顔を判別することができるようになってしまったようです。

Forkwell Press – TensorFlow と出会った「ドルヲタ」エンジニアが1年かけてたどり着いた境地 - LINE...

好きなものならば、いくら詳しくなっても嬉しいだけですね。
自分の好きなものならば、見続けていても苦になりづらいので、データセット作成のモチベーションが保たれます。

https://cdn-ak.f.st-hatena.com/images/fotolife/s/sugyan/20160112/20160112012505.png TensorFlowによるディープラーニングで、アイドルの顔を識別する - すぎゃーんメモ

女性のネイルについて詳しくなってしまう

リクルートライフスタイルが運営するホットペッパービューティでは、ネイルをデザインから検索することができます。
ユーザーが画像を投稿すると、自動でタグ付けし、検索ができるようになっています。

この機能の裏側には、リクルートテクノロジーズの(主に)男性社員によるネイルの学習データの作成の努力がありました。
ユーザーの利便性を向上させるべく頑張った結果彼らは、
合コンに来ている相手の女性の手を見て、ネイルの種類を言い当てることができるスキルを得てしまいました。
ただのIT企業社員なのに、ネイル判別のプロになってしまったのです。

このように、業務で自分の興味外のことをやる可能性もあり、思ってもみない知識が必要以上に身につくこともあります。
ちなみに僕は、キッチンについて業務上詳しくなってしまいました。5000枚以上見続けたので、一目見るだけで使いやすいキッチンかどうかアドバイスできます。

結局はデータセット

このように、機械学習を行うため学習用データセットを作る必要があり、その過程で関わった人がそのドメインについて異常に詳しくなってしまうという、機械学習エンジニアあるあるな話題の具体例を取り上げました。
機械学習をやる上で、作成したモデルよりも自分が詳しくなるのは、自分でデータセットを作る以上避けては通れません。

読んでくださっている人の中には、こういうことを機械学習で判別したい!、というネタを持ってる人がいると思います。 だけどども、そのネタに都合よく使える正解データはあまりありません。
ここで大半の人は、自分でデータセット作るのは面倒だし、やめとこうとなります。

だけれども、そこで頑張ってデータセットを作ってみると、その分野の第一人者になれるほど詳しくなるというオマケが付いてきます。もしそれがもともと好きな分野ならば、さらに知識がついて楽しい感じになります。
逆に、その分野について詳しくないけど気になっている、というものならば、詳しくなれるチャンスです。機械学習の知見も身についてお得です。

機械学習をやろうとすると、作業時間の8割ほどはデータセットの加工に費やされることになります。 データ分析の分野でもそうですが、そのデータのドメイン知識がないとうまくいきません。
であるならば、自分の興味のある分野でデータセット作成から行うことが、機械学習を学ぶコツだと思っています。