今回のスーパーコンピューターの系譜は前回に続きインテルのアクセラレーターについてである。インテルはLarrabeeの後継をHPC向け製品として提供することを決断、そこから猛然と動き始める。
HPC向けアクセラレーターに特化した
Knights Ferry
まず2010年に投入されたのが、Knights Ferryである。LarrabeeはまだGPU的な要素を残していたが、Knights FerryではテクスチャーエンジンやラスタライザーなどのGPU的な機能を完全に取り去り、純粋にHPC向けアクセラレーターにした。
この時点でインテルはこれをMIC(Many Integrated Core)アーキテクチャーと呼ぶようになる。
これに基づく最初のボードがKnights Ferryであるが、実はインテルは結構なコストをかけてKnights Ferryを開発したものの、製品として販売していない。その代わりにKnights Ferryを将来のMICアーキテクチャーに基づく製品を利用してくれそうなユーザーに配った。
Knights Ferryは最大32コア、同時128スレッドの実行が可能というもので、動作周波数は最大1.2GHzほど。
各々のコアはLarrabeeと同じ16-WideのSIMDエンジンを搭載しており、ピーク性能は614GFLOPSほどになる計算だが、この前年の2009年にNVIDIAはGF100ベースのC2050/C2070をリリースしており、こちらはFloatなら1.3TFLOPSを実現しているので、だいぶ見劣りする。
実際、Larrabeeよりは多少マシではあるものの、厳然たる性能差が存在した。また、この時点ではMICアーキテクチャーを採用したチップが他になく、開発ツールを用意しても、これを使うためのプラットフォームがない状態だった。
CUDAだとG80以降のビデオカードを購入すればそこで実装できるし、AMDのBrook+ではFire Streamが販売されていた。ところがMICに関してはこれがない。一応命令セットこそx86ながら、独自実装された16-wideのSIMDエンジンは他のx86プロセッサーには搭載されていないからだ。
そこでMICアーキテクチャーベースの製品発売に先立って、Knights Ferryを見込み客に配布した形だ。余談ながら、Knights Ferryというのはコアのコード名ではなくカードのコード名であり、コアのコード名はAuburn Isleとなっているが、これは以前Larrabee 2として開発されていたものである。
さて、内部構造であるが、各々のコアの内部を簡単にまとめたのが下の画像だ。コアの左半分は限りなくP54コアに近い。ただし、オリジナルのP54コアはシングルスレッドであり、一方MICでは4スレッドなので、これに対応する形で一部のレジスター類やレジスターファイルなどを4スレッド分用意するといった拡張がされていると思われる。
逆に右半分はLarrabeeで拡張された部分である。連載25回でLRBni(Larrabee New Instructions)の話に少し触れたが、基本的にはこのLRBniをほぼそのまま利用していると思われる。
これも余談だが、LRBniという名前は2009年頃から言われていたものの、肝心のLarrabeeがボツになったためか、公式にはLRBni(あるいはLNI)という用語は使われておらず、上の画像でも“Enhanced x86 instructions set”という表現になっている。
Knighs Ferryの発売時点で、次にKnights Cornerという製品が投入されることが明らかにされている。
このあたりはプロセスを自身で持っている強みで、45nm→32nm→22nmと世代毎にトランジスタ数を倍増できるため、最初はコア数が少なくてもプロセス微細化で簡単に性能を倍増できることになる。
2011年のISC 11(International Supercomputing Conference)にあわせ、インテルはKnights Ferryの製品写真やダイ写真を含む情報を公開した。
ここで、すでにそれなりの性能が実現できることをアピールした。LU分解(行列式を解く方式の1つ)にXeonとKinghts Ferryを組み合わせて772GFLOPS、同じくXeonとKinghts Ferryを組み合わせたSGEMM(単精度の行列演算)で1TLOPS以上、Knights Ferryを8枚組み合わせたSGEMMで7.4TFLOPSの性能を出したとしている。
→次のページヘ続く (Xeonブランドで登場したKnights Corner)
この連載の記事
-
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ - この連載の一覧へ