画像認識用ニューラルネットワーク Inception V1 の層の 1 つを Activation Atlas で表示した詳細イメージ。ネットワークが画像を分類するために、さまざまに異なる種類の画像検出を適用していことがわかる。たとえば、果物のような構造、ハチの巣状のパターン、織物のような質感など。 |
次に示す例は、
ImageNet データセットでトレーニングした CNN である
Inception V1 に対して Activation Atlas を適用したものです。CNN では一般に、画像を受け取ってそれにラベルを付けます。具体的には、事前に決められている「
カルボナーラ」「
シュノーケル」「
フライパン」といった 1,000 種類ほどのラベルをそれぞれの画像に付けておきます。これを行うために、ネットワークは 10 個ほどの層を使って画像データを段階的に評価していきます。それぞれの層は数百個のニューロンから成り、その個々のニューロンは画像のさまざまな部分に反応して活性化します。ある層のあるニューロンは犬の耳に反応したり、入力側の層のあるニューロンはコントラストの強い縦線に反応したりします。
Activation Atlas は、100 万枚の画像からニューラル ネットワークの各層の内部的な活性化状態を集めることで構築されています。この活性化状態は複雑な高次元ベクトルの集まりで表現されています。それを、
UMAP でわかりやすい 2 次元のレイアウトに投影します。UMAP は、高次元データからその本質的な構造を取り出すための次元削減の技術です。
これで活性化ベクトルを整理できますが、すべての活性化状態を収集すると一目ではわからないほど膨大な数になるので、それを集約して実際に扱える程度に減らす必要があります。そこで、作成した 2 次元レイアウトの上にグリッドを描画します。グリッド内のそれぞれのセルで、セルの境界内にあるすべての活性化状態の平均を計算し、特徴の視覚化によって個々のセルを表す画像を作成します。
|
左: ランダムな 100 万個のイメージをネットワークに入力し、画像ごとに空間的な活性化状態を 1 つ、ランダムに収集する。中央: 活性化状態を UMAP に渡し、2 次元まで次元を減らす。その結果をプロットする。似たような活性化状態は互いに近くに配置される。右: グリッドを描画し、セルに対応する活性化状態の平均を計算して、平均化した活性化状態の特徴を反転させる。 |
下の図は、ニューラル ネットワークのある 1 つの層だけを Activation Atlas で表したものです(先に触れたように画像認識モデルは通常たくさんの層を備えます)。これは、ネットワークがこの層で学習した視覚的概念をすべて網羅する図です。こうした Activation Atlas による可視化の結果はあまりに膨大すぎて、見慣れないうちは意味がわからないかもしれません。このたくさんのさまざまな模様が、画像認識モデルが作り出したさまざまな視覚的抽象化と概念を反映しています。
|
Inception V1 の多くの層の 1 つ(mixed4c)を Activation Atlas で表現した概要図。ネットワークの中ほどに存在する層を表している。 |
|
この付近では、さまざまな種類の葉や植物を検出していることがわかる。 |
|
ここでは、さまざまな水域、湖、砂州を検出している。 |
|
ここには、さまざまな建物や橋がある。 |
前述のように、このネットワークには、ほかにもたくさんの層があります。ネットワークの奥に向かうにつれて概念が細分化されていくことを確かめるため、この層の前の層を見てみましょう(それぞれの層は、前の層の活性化を受けて活性化します)。
|
前の層である mixed4a には、漠然とした「哺乳類」の領域がある。 |
|
ネットワークの次の層の mixed4b では、動物と人が分かれ、その間には果物や食べものが現れている。 |
|
mixed4c 層では、以上のような概念がさらに細分化され、小さな「半島」状になって区別されている。 |
層を重ねるごとに全体的な構造が進化していきますが、個々の概念も具体的で複雑なものになっていくことがわかります。3 つの層について、具体的な分類項目である「キャベツ」に関係する領域に注目してみると、それがよくわかります。
|
左: 最初に近い層。ほかの層に比べると、具体性が低い。中央: 中ほどの層では、明らかに葉のようなイメージだが、種類まではわからない。右: 最後の層では、葉が球状に丸まっているキャベツ特有のイメージになっている。 |
もう 1 つ、注目すべき現象があります。層を重ねるごとに概念が細かくなっていくだけでなく、古い概念を組み合わせて新しい概念が現れているように見えます。
|
中ほどの層である mixed4c(左および中央)では、砂と水は別々の概念になっている。「砂州」という分類項目は、その両方と強く結びついている。その後の層である mixed5b(右)と比較すると、2 つの概念が 1 つの活性化状態として融合していると考えられる。 |
特定の層全体を表す Activation Atlas の特定の領域にズームすることもできますが、ImageNet の 1,000 の分類項目の 1 つに注目し、その特定の層の Activation Atlas を作ることもできます。これを見ると、ネットワークが特定の分類項目に分類する際に、特に頻繁に使っている概念とそれをどう探しているかがわかります。たとえば、「アカギツネ」の例を見てみましょう。
|
ここから、ネットワークが「アカギツネ」に分類する際に、何に注目しているかがよくわかる。耳がとがっていること、赤い毛で鼻の周りが白くなっていること、背景が森や雪であることがあげられる。 |
|
ここでは、さまざまな拡大率や角度の「瓦屋根」を検出している。 |
|
「アイベックス」では、角と茶色い毛皮を検出していることがわかる。それだけでなく、アイベックスがいる岩場などの環境も検出している。 |
|
瓦屋根の場合と同じく、「チョウセンアザミ」でもさまざまな大きさのチョウセンアザミの画像を検出している。それに加えて、紫色の花を検出している部分もある。チョウセンアザミの花を検出しようとしているものと考えられる。 |
このような Activation Atlas から、モデル内で細やかな視覚的抽象化が行われていることがわかります。それだけでなく、概念的なレベルの間違いが起きていることがわかる場合もあります。たとえば、「ホホジロザメ」の Activation Atlas を見てみると、水と三角形のひれが出てきます。これは予想どおりですが、野球ボールのようなものがあることもわかります。ここから、このモデルが覚えてしまった「近道」がわかります。つまり、野球ボールの赤い縫い目と、口を開けたホホジロザメを似ているものとして認識しています。
これをテストするため、野球ボールのイメージの一部を貼り付けてみると、モデルは「コククジラ」の特定のイメージを「ホホジロザメ」に分類するようになります。
この Activation Atlas が、機械学習をより身近で解釈しやすくする技術のひとつとして活用されることを期待しています。簡単に試せる
Jupyter ノートブックをリリースしましたので、ブラウザで
Colab を開き、1 回クリックするだけですぐに実行できます。Activation Atlas は、以前にリリースされたツール
Lucid をベースとしており、わかりやすい視覚化を行うさまざまな技術を備えています。
Activation Atlas を使って皆さまが見つけた新しい発見の報告をお待ちしています。
Reviewed by
Kaz Sato - Staff Developer Advocate, Google Cloud