NVIDIA、前世代からワット当たり性能を2倍に高めたGeForce 600シリーズ
~GeForce GTX 580が3枚必要なデモをGTX 680 1枚で実行可能に

ロゴも新しくなった

3月22(現地時間) 発表



 米NVIDIAは、これまで「Kepler」のコードネームで呼ばれてきた新アーキテクチャ採用のGPU「GeForce 600」シリーズを発表した。搭載製品は即日出荷開始される。

 基本的なアーキテクチャは前世代の「Fermi」を踏襲しながらも、徹底的に効率を見直し再設計を行なった。これにより、ワットあたりの性能はGeForce 500シリーズの2倍に向上したとしている。

 効率改善の手法として、制御ロジックの数を半減させた。500シリーズでは、32基のSPを1SM(Streaming Processor)という単位にまとめ、1SMにつき1基の制御ロジックが割り当てられていた。GTX 580では16SM、すなわち16基の制御ロジックが搭載されていたが、GTX 680では8基に半減させることで、消費電力を抑えた。減少した分については、スケジューリング処理をソフトウェア(CPU)に肩代わりさせることで、性能の低下を防いでいる。また、制御ロジックとともに、ジオメトリエンジンの数も半減しているが、クロックを2倍にし、その他の改善を施したPolyMorph 2.0にすることで、前世代よりも性能を2倍に引き上げている。ちなみに、600シリーズでは、192SPをひとまとめにした構成になっており、これをSMXと呼称している。

 また、プロセスルールが40nmから28nmへと微細化したことの寄与も大きく、GTX 680のSPクロックは、GTX 580の1,544MHzから1,006MHzへと、7割程度に下がっているものの、SP数はGTX 580の512基に対し、GTX 680は1,536SPと3倍になっており、クロックの低下をSP数の増分で補い、絶対性能も向上させている。その一方で、TDPはGTX 580の244Wから、195Wへと大きく削減し、ダイサイズも520平方mmから294平方mmにするなど、チップの規模は従来のハイミドルクラスにとどまっている。なお、GTX 580では、SPクロックがグラフィックスクロックの2倍になっていたが、GTX 680では、そういった仕組みはなくなり、同じクロックで動作する。

GeForce GTX 580では32SPと1制御ロジックで1SMを構成GeForce GTX 680では192コアと1制御ロジックで1SMXを構成8SMXで1,536SPを搭載する
SMのブロックダイヤグラムGPU全体のブロックダイヤグラムダイ写真

 メモリについては、インターフェイスが384bitから256bitになったが、クロックが4GHzら6GHzに上がっているため、バンド幅は192GB/secと同じ性能になっている。ただし、キャッシュは倍速化されている。

 これらにより、理論性能値はGTX 580の1,581GFLOPSから3,090GFLOPSになった。また、EPIC GAMESが開発した「SAMARITAN」というデモにおいて、GTX 580では3枚が必要だったものが、GTX 680では1枚で動作させられるようになったという。

 ただしこれは、いわゆるGPU性能が同条件で3倍になったというのではなく、アンチエリアスに関わる部分が大きい。2011年にGTX 580でデモを行なった際はMSAA(Multi Sample Anti Aliasing)を用いたが、GTX 680では、MSAAよりも6割高速な処理が可能なFXAA(Fast Approximate Anti Aliasing)を利用している。一般的なゲームにおける性能は、Radeon HD 7970に対して1~4割程度高いとしている。

SAMARITANのデモにGTX 580が3枚必要だったところ、GTX 680は1枚で動作させられるGTX 580とのワット当たり性能の比較
Radeon HD 7970との性能比較Radeon HD 7970とのワット当たり性能の比較

 機能面では、昨今のCPUと同じブースト機能を取り入れた。消費電力、GPUの温度/負荷、メモリ負荷などを監視し、TDPに余裕がある場合は、GPUのクロックをリアルタイムで最大限引き上げる。具体的には、GTX 680のベースクロックは1,006MHzだが、Boostクロックは1,058MHzになっている。ただしこれは、1,058MHzで頭打ちではなく、負荷次第では1,100MHz程度まで上がる。また、オーバークロックモデルも用意される。

消費電力が低い場合、TDPの範囲でGPUクロックを引き上げるオーバークロックモデルなら最大1,200MHzも可能

 アンチエイリアスについては、FXAAだけでなく、新たに独自開発したTXAAにも対応する。TXAAの技術詳細は公開されていないが、TXAA 1というモードでは、8x MSAA以上の画質を2x MSAA程度の負荷で実現できるという。さらに、前後のフレームを参照するTXAA 2では、8~16x MSAA相当の画質を4x MASSの負荷で実現可能としている。TXAAについては、すでに大手ゲームデベロッパが対応を表明している。

MSAAとTXAAの負荷と画質の関係AAなし
8x MSAATXAA

 動的VSyncという機能も実装された。従来、VSyncを有効にすると、画面を横方向にパンさせたとき発生する、画面上下での描画のずれがなくなるが、フレームレートが60fpsを維持できないと、30fps、15fpsへと一気に落ちるという問題があった。これに対して、動的VSyncを利用すると、60fpsを切った瞬間にVSyncがオフになるため、フレームレートの落ち込みがなだらかになり、60fpsに戻ると、VSyncも自動的にオンに戻る。

従来のVSyncオン状態では、フレームレートが60fpsを切ると、30fpsまで一気に落ちていた動的VSyncでは、60fpsを切るとVSyncを一時的に切ることで、なだらかにフレームレートが下がる

 GTX 680の主な仕様は下表の通り。厚さは2スロットだが、ファンの素材や、ヒートパイプ、ヒートシンクの形状を改良することで、騒音レベルは46dBAと、同社製ハイエンドGPUとしてもっとも低騒音になっているという。電源は6ピン×2。インターフェイスは、新たにPCI Express 3.0に対応した。米国での実売価格は499ドル。

【表1】GeForce GTX 680の仕様
 GeForce GTX 680GeForce GTX 580
SP数1,536基512基
SPクロック1,006MHz1,544MHz
テクスチャユニット数128基64基
ROP数32基48基
メモリ2GB GDDR51.5GB GDDR5
メモリクロック6,008MHz4,008MHz
メモリインターフェイス256bit384bit
メモリバンド幅192.26GB/sec192.4GB/sec
プロセスルール28nm40nm
TDP195W244W
トランジスタ数35億4千万30億

GeForce GTX 680カバーを外したところ。冷却周りも改善させた
ヒートシンク類を外したところブラケット

 ディスプレイインターフェイスはデュアルリンクDVI×2、HDMI 1.4a、DisplayPort 1.2の4系統。これまで3画面立体視の「3D Vision Surround」には2枚のビデオカードが必要だったが、DVI×2とHDMI(アダプタでDVIに変換)の3つを使って、1枚で3画面立体視が可能になった。さらに、この状態からDisplayPort経由の2D表示も可能で、3画面で立体視しながら、もう1画面でゲームの情報を得たり、チャットしたりといった使い方が可能になった。また、HDMI経由で3,840×2,160ドットの4K出力にも対応する。

3D Vision Surround+1ディスプレイが可能4K出力にも対応

 ノートPC用には複数のモデルが用意されるが、一部は従来のFermiコアのものや、Fermiでありつつもプロセスルールが28nmというものも含まれている。詳細は下表の通り。

【表2】GeForce 600Mシリーズの仕様
 GeForce GTX 675M670M660M
プロセスルール40nm40nm28nm
アーキテクチャFermiFermiKepler
SP数最大384基最大336基最大384基
SPクロック最大620MHz最大598MHz最大835MHz
メモリ最大2GB GDDR5最大3GB GDDR5最大3GB GDDR5
メモリクロック最大1,500MHz最大1,500MHz最大2,000MHz
メモリインターフェイス最大256bit最大192bit最大128bit

 650M640M640M LE635M
プロセスルール28nm28nm28nm40nm40nm
アーキテクチャKeplerKeplerKeplerFermiFermi
SP数最大384基最大384基最大384基最大96基最大144基
SPクロック最大850MHz最大625MHz最大500MHz最大762MHz最大675MHz
メモリ最大2GB GDDR5/GDDR3最大2GB GDDR5/GDDR3最大2GB GDDR3最大2GB GDDR5/GDDR3最大2GB GDDR5
メモリクロック最大4,000MHz最大4,000MHz最大1,800MHz最大3,138MHz最大1,800MHz
メモリインターフェイス最大128bit最大128bit最大128bit最大128bit最大192bit

 630M620M
プロセスルール28/40nm28nm
アーキテクチャFermiFermi
SP数最大96基最大96基
SPクロック最大800MHz最大625MHz
メモリ最大2GB GDDR3最大1GB GDDR3
メモリクロック最大2,000MHz最大1,800MHz
メモリインターフェイス最大128bit最大128bit

(2012年 3月 22日)

[Reported by 若杉 紀彦]