10nm Ice Lake CPU Meets M.2: The 'Spring Hill' Nervana NPP-I Deep Dive(Tom's Hardware)
Spring Hill (NNP-I 1000) Intel’s Data Center Inference Chip(Intel / PDF files)
IntelはHot Chips 31でNervana Neural Network Processor for Ineference―略してNNP-Iの概要を明らかにした。NNP-Iは10nmプロセスの“Ice Lake”をベースに変更を加えたもので、NNP-IはM.2スロット対応の基板に載せられていた。
IntelはAI市場の高まりとともに“AI everywhere”戦略を掲げ、多数の異なる切り口から市場を攻めにかかっている。同社のアプローチは多方面に渡り、GPU、FPGAそしてカスタムASICが挙げられる。いずれもAI市場に異なる方面から殴り込みをかけるものである。そしていくつかのソリューションはcompute-intensive traing tasks (演算性能を重視する学習タスクとでも訳せばいいだろうか?) に向けて設計され、物体認識や翻訳、音声合成などための複雑なNeural networksを作り出す。一方、別のソリューションはresulting trained models (いい訳がない・・・。解決を行う学習モデル的な???) 向けで、軽量なコードで推論と呼ばれる処理を行う。
Spring Hill (NNP-I 1000) Intel’s Data Center Inference Chip(Intel / PDF files)
IntelはHot Chips 31でNervana Neural Network Processor for Ineference―略してNNP-Iの概要を明らかにした。NNP-Iは10nmプロセスの“Ice Lake”をベースに変更を加えたもので、NNP-IはM.2スロット対応の基板に載せられていた。
IntelはAI市場の高まりとともに“AI everywhere”戦略を掲げ、多数の異なる切り口から市場を攻めにかかっている。同社のアプローチは多方面に渡り、GPU、FPGAそしてカスタムASICが挙げられる。いずれもAI市場に異なる方面から殴り込みをかけるものである。そしていくつかのソリューションはcompute-intensive traing tasks (演算性能を重視する学習タスクとでも訳せばいいだろうか?) に向けて設計され、物体認識や翻訳、音声合成などための複雑なNeural networksを作り出す。一方、別のソリューションはresulting trained models (いい訳がない・・・。解決を行う学習モデル的な???) 向けで、軽量なコードで推論と呼ばれる処理を行う。
“Spring Hill”―Nervana Nerual Network Processor for Inference (NNP-I) 1000は、軽量な推論ワークロードをデータセンターで行うためのチップである。ゆえに十分小型である必要があり、標準的なM.2デバイスに収められ、マザーボードのM.2スロットに搭載できるものとなる。そしてXeonサーバーを推論重視のワークロードから解放し、より大がかりな一般的な演算タスクに(Xeonを)集中させることができる。IntelはNeural Network Processor fot Training (NNP-T) も学習ワークロード向けのNervanaソリューションとして提唱するが、これとは異なるアーキテクチャである。
“Spring Hill”は10nmの“Ice Lake”をベースに変更を加えたものである。まず4-coreのうち2-core分の“Sunny Cove” CPUコアとiGPUを取り除き、代わりに12基のInference Compute Engine (ICE) を搭載する。ICEはハードウェアベースでユニット間で同期し、coherent fabricと24MBの共有L3 cacheを有する(L3 cacheは2つの“Sunny Cove”IA CPUコアとも共有する)。
“Sunny Cove”は元々AVX-512とVNNI命令セットを有しており、Convolutional Neural Networksの速度向上に寄与する。またFIVRはオンダイユニットに効率よく電力を配分する。さらに、2基のLPDDR4Xメモリコントローラを有しており、オンパッケージのLPDDR4Xに接続される。
だいぶ長くなるので残りはIntelのスライドを見ながらかいつまんで。
◇Spring Hill NNP-I
このスライドに“Spring Hill”の構成が描かれている。2基の“Sunny Cove”IA coreと12基のInference Compute Enigne (ICE) を搭載しており、これらはCach Coherency fabricで接続されるとともに24MBのL3 cacheを共有する。I/OとしてLPDDR4Xメモリコントローラを2基、PCI-Express 3.0 x4ないしはx8を備えている。
電力レンジは10~50Wとなるが、M.2インターフェースの上限が15Wであるため、M.2規格で提供されるものは15W以下になるだろうと推測される。それよりも高い電力帯のものはPCI-Expressカードの形で提供されるだろうと推定されている。
◇ICE-Inference Compute Engine
(どうしよう、さっぱりわからなくなってきたぞ)
最近はやりの推論を担うユニットである。
ブロック図にはDeep Leraning Compute Grid (DL Compute Unit) とVP6 DSP、4MB SRAMが中央に並んでおり、これらはData & Ctrl fabricに接続されている。またVP6 DSPとDR Compute Gridは256KB TCMにも繋がっている。
まずDeep Learning Compute Gridであるが、FP16, INT8, INT 4/2/1をサポートするという記載があり、1 cycleあたり4K MAC (int 8)を処理できるとある。またICE全体を有する4MBのSRAMとは別に、ローカルのSRAMを内蔵し、電力効率を高めている。
Programable Vector ProcessorはVP6 DSPと記されているユニットのことであろうか。5 VLIW 512bという記載があり、FP16/16b/8bのサポートを行うとある。
さらにこれらDL Compute UnitとVP6 DSPについてより詳しく記載したスライドもあるのだが、もう「全然わからん!」状態なので興味のある方は是非とも実際にそのスライドを見て欲しい。
At Hot Chips, Intel Pushes ‘AI Everywhere’(Intel)
Hot Chips 31でIntelが行ったAI Everywhere関連のニュースリリースはここにまとまっている。より大型のチップであるNerveana NNP-Tについても記載されている。NNP-Tは“Spring Crest”という名前がついているが、NNP-Iよりも遙かに規模の大きなチップで、24基のTensor Processorを搭載し、メモリにはHBMを4 stack、これらを“Fiji”や“Vega”同様のシリコンインタポーザを用いた2.5次元実装を行うと見られる。
雑な表現を用いてしまえばTensor Coreをガン積みして推論性能に思い切り舵を振り切ったTeslaのようなものである。製造プロセスはTSMC CLN16FF+、ダイサイズは680mm2となっており、なかなかの大型チップである(Interposerに至っては1200mm2とかいう数字が出てきている)。インターフェースはPCI-Express 4.0 x16、空冷を想定しており150~250W程度の動作電力を見込んでいる模様である。
NNP-Tはともかく、NNP-IのM.2規格のものは小さなチップであり、道楽で自作PCに載せる
(追記:2019年9月2日20時33分)
Intelの深層学習チップ「Spring Crest」と「Spring Hill」の大きく異なるアーキテクチャ(Impress PC Watch / 後藤弘茂のWeekly海外ニュース)
後藤氏のコラムで“Spring Hill”および“Sprinc Crest”の解説が行われている。こちらも是非ご参照いただきたい。
- 関連記事
-
- 4-coreの“Amber Lake-Y”がひっそりと追加された模様 (2019/08/21)
- “Spring Hill”―Hot Chips 31で明らかにされたNNP-Iの中身 (2019/08/21)
- 18-coreの“Cascade Lake-X”のES品と推測されるCPUが姿を現す (2019/08/18)
○Amazon売れ筋ランキング CPU メモリ グラフィックカード マザーボード SSD 電源
この記事へのコメント
Cellだなw
2019/08/21(Wed) 23:00 | URL | LGA774 #-[ 編集]
NNP-IはM.2スロット対応の基板にの世羅手板。
ここの文誤字ってませんか?僕の勘違いだったらすみません…
ここの文誤字ってませんか?僕の勘違いだったらすみません…
2019/08/21(Wed) 23:59 | URL | LGA774 #-[ 編集]
compute-intensive traing tasks
学習(訓練)特化型タスク
resulting trained models
学習(訓練)済み推論用モデル
とかでいいのでは?(かなり適当)
これってAIの学習と学習結果を使った推論を分け、それぞれ特化型にしたって読めるような……
んでNNP-T(Spring Crest)は学習、NNP-I(Spring Hill)は推論という事かな
学習(訓練)特化型タスク
resulting trained models
学習(訓練)済み推論用モデル
とかでいいのでは?(かなり適当)
これってAIの学習と学習結果を使った推論を分け、それぞれ特化型にしたって読めるような……
んでNNP-T(Spring Crest)は学習、NNP-I(Spring Hill)は推論という事かな
2019/08/22(Thu) 01:24 | URL | LGA774 #-[ 編集]
Xeonの数少ない優れたところを奪う物を自ら作るってどうなんだろうか
どうせ売れないと思ってるのかな?
どうせ売れないと思ってるのかな?
2019/08/22(Thu) 01:24 | URL | LGA774 #sSHoJftA[ 編集]
機械学習系はCUDAが押さえちゃってるからハードだけ作っても使えるのかな。
AMDのROCmみたいなCUDAをうまいことするレイヤーが必要そうだが、ソフト弱そうだからなぁIntel。
AMDのROCmみたいなCUDAをうまいことするレイヤーが必要そうだが、ソフト弱そうだからなぁIntel。
2019/08/22(Thu) 07:45 | URL | LGA774 #-[ 編集]
てか、TSMCの16nm使うのね…
2019/08/22(Thu) 07:51 | URL | LGA774 #-[ 編集]
スレート板じゃなかろうか
2019/08/22(Thu) 10:34 | URL | _ #-[ 編集]
> の世羅手板。
ツッコミなしをは思ってなかった
ツッコミなしをは思ってなかった
2019/08/22(Thu) 10:58 | URL | LGA774 #-[ 編集]
の世羅手板
↓
載せられていた
かな。
↓
載せられていた
かな。
2019/08/22(Thu) 14:35 | URL | LGA774 #-[ 編集]
基板にの世羅手板
→基盤に乗せら「れ」ていた と予想
→基盤に乗せら「れ」ていた と予想
2019/08/22(Thu) 21:56 | URL | LGA774 #-[ 編集]
GPUにはグラフィックがよくなるというわかりやすいメリットがあったんだが、いわゆるAIチップって、そういうわかりやすいメリットって今なにかあるのかな?
2019/08/23(Fri) 22:05 | URL | 壁|ω゚)┻┛ #-[ 編集]
用途はAlexaやHomeのカメラ版だと思う。音声DSPとCPUが1つになって声でスリープ解除が可能になった。今度は家の監視カメラ
2019/08/25(Sun) 14:40 | URL | LGA774 #-[ 編集]
>GPUにはグラフィックがよくなる
AIがよくなるとしか言えないわなw
ゲームなら敵の動きのアルゴリズムとか?
ただ、CPUで描写してた時代にGPUが現れたみたいに
それ用のプログラム書かないと何もできないね
DirectXとかOpenGLみたいなプラットフォームもまだないし
AIがよくなるとしか言えないわなw
ゲームなら敵の動きのアルゴリズムとか?
ただ、CPUで描写してた時代にGPUが現れたみたいに
それ用のプログラム書かないと何もできないね
DirectXとかOpenGLみたいなプラットフォームもまだないし
2019/08/26(Mon) 01:56 | URL | LGA774 #-[ 編集]
この記事のトラックバックURL
https://northwood.blog.fc2.com/tb.php/9911-047cc054
この記事にトラックバックする(FC2ブログユーザー)
この記事にトラックバックする(FC2ブログユーザー)
この記事へのトラックバック