米NVIDIAは、これまで「Kepler」のコードネームで呼ばれてきた新アーキテクチャ採用のGPU「GeForce 600」シリーズを発表した。搭載製品は即日出荷開始される。
基本的なアーキテクチャは前世代の「Fermi」を踏襲しながらも、徹底的に効率を見直し再設計を行なった。これにより、ワットあたりの性能はGeForce 500シリーズの2倍に向上したとしている。
効率改善の手法として、制御ロジックの数を半減させた。500シリーズでは、32基のSPを1SM(Streaming Processor)という単位にまとめ、1SMにつき1基の制御ロジックが割り当てられていた。GTX 580では16SM、すなわち16基の制御ロジックが搭載されていたが、GTX 680では8基に半減させることで、消費電力を抑えた。減少した分については、スケジューリング処理をソフトウェア(CPU)に肩代わりさせることで、性能の低下を防いでいる。また、制御ロジックとともに、ジオメトリエンジンの数も半減しているが、クロックを2倍にし、その他の改善を施したPolyMorph 2.0にすることで、前世代よりも性能を2倍に引き上げている。ちなみに、600シリーズでは、192SPをひとまとめにした構成になっており、これをSMXと呼称している。
また、プロセスルールが40nmから28nmへと微細化したことの寄与も大きく、GTX 680のSPクロックは、GTX 580の1,544MHzから1,006MHzへと、7割程度に下がっているものの、SP数はGTX 580の512基に対し、GTX 680は1,536SPと3倍になっており、クロックの低下をSP数の増分で補い、絶対性能も向上させている。その一方で、TDPはGTX 580の244Wから、195Wへと大きく削減し、ダイサイズも520平方mmから294平方mmにするなど、チップの規模は従来のハイミドルクラスにとどまっている。なお、GTX 580では、SPクロックがグラフィックスクロックの2倍になっていたが、GTX 680では、そういった仕組みはなくなり、同じクロックで動作する。
GeForce GTX 580では32SPと1制御ロジックで1SMを構成 | GeForce GTX 680では192コアと1制御ロジックで1SMXを構成 | 8SMXで1,536SPを搭載する |
SMのブロックダイヤグラム | GPU全体のブロックダイヤグラム | ダイ写真 |
メモリについては、インターフェイスが384bitから256bitになったが、クロックが4GHzら6GHzに上がっているため、バンド幅は192GB/secと同じ性能になっている。ただし、キャッシュは倍速化されている。
これらにより、理論性能値はGTX 580の1,581GFLOPSから3,090GFLOPSになった。また、EPIC GAMESが開発した「SAMARITAN」というデモにおいて、GTX 580では3枚が必要だったものが、GTX 680では1枚で動作させられるようになったという。
ただしこれは、いわゆるGPU性能が同条件で3倍になったというのではなく、アンチエリアスに関わる部分が大きい。2011年にGTX 580でデモを行なった際はMSAA(Multi Sample Anti Aliasing)を用いたが、GTX 680では、MSAAよりも6割高速な処理が可能なFXAA(Fast Approximate Anti Aliasing)を利用している。一般的なゲームにおける性能は、Radeon HD 7970に対して1~4割程度高いとしている。
SAMARITANのデモにGTX 580が3枚必要だったところ、GTX 680は1枚で動作させられる | GTX 580とのワット当たり性能の比較 |
Radeon HD 7970との性能比較 | Radeon HD 7970とのワット当たり性能の比較 |
機能面では、昨今のCPUと同じブースト機能を取り入れた。消費電力、GPUの温度/負荷、メモリ負荷などを監視し、TDPに余裕がある場合は、GPUのクロックをリアルタイムで最大限引き上げる。具体的には、GTX 680のベースクロックは1,006MHzだが、Boostクロックは1,058MHzになっている。ただしこれは、1,058MHzで頭打ちではなく、負荷次第では1,100MHz程度まで上がる。また、オーバークロックモデルも用意される。
消費電力が低い場合、TDPの範囲でGPUクロックを引き上げる | オーバークロックモデルなら最大1,200MHzも可能 |
アンチエイリアスについては、FXAAだけでなく、新たに独自開発したTXAAにも対応する。TXAAの技術詳細は公開されていないが、TXAA 1というモードでは、8x MSAA以上の画質を2x MSAA程度の負荷で実現できるという。さらに、前後のフレームを参照するTXAA 2では、8~16x MSAA相当の画質を4x MASSの負荷で実現可能としている。TXAAについては、すでに大手ゲームデベロッパが対応を表明している。
MSAAとTXAAの負荷と画質の関係 | AAなし |
8x MSAA | TXAA |
動的VSyncという機能も実装された。従来、VSyncを有効にすると、画面を横方向にパンさせたとき発生する、画面上下での描画のずれがなくなるが、フレームレートが60fpsを維持できないと、30fps、15fpsへと一気に落ちるという問題があった。これに対して、動的VSyncを利用すると、60fpsを切った瞬間にVSyncがオフになるため、フレームレートの落ち込みがなだらかになり、60fpsに戻ると、VSyncも自動的にオンに戻る。
従来のVSyncオン状態では、フレームレートが60fpsを切ると、30fpsまで一気に落ちていた | 動的VSyncでは、60fpsを切るとVSyncを一時的に切ることで、なだらかにフレームレートが下がる |
GTX 680の主な仕様は下表の通り。厚さは2スロットだが、ファンの素材や、ヒートパイプ、ヒートシンクの形状を改良することで、騒音レベルは46dBAと、同社製ハイエンドGPUとしてもっとも低騒音になっているという。電源は6ピン×2。インターフェイスは、新たにPCI Express 3.0に対応した。米国での実売価格は499ドル。
GeForce GTX 680 | GeForce GTX 580 | |
SP数 | 1,536基 | 512基 |
SPクロック | 1,006MHz | 1,544MHz |
テクスチャユニット数 | 128基 | 64基 |
ROP数 | 32基 | 48基 |
メモリ | 2GB GDDR5 | 1.5GB GDDR5 |
メモリクロック | 6,008MHz | 4,008MHz |
メモリインターフェイス | 256bit | 384bit |
メモリバンド幅 | 192.26GB/sec | 192.4GB/sec |
プロセスルール | 28nm | 40nm |
TDP | 195W | 244W |
トランジスタ数 | 35億4千万 | 30億 |
GeForce GTX 680 | カバーを外したところ。冷却周りも改善させた |
ヒートシンク類を外したところ | ブラケット |
ディスプレイインターフェイスはデュアルリンクDVI×2、HDMI 1.4a、DisplayPort 1.2の4系統。これまで3画面立体視の「3D Vision Surround」には2枚のビデオカードが必要だったが、DVI×2とHDMI(アダプタでDVIに変換)の3つを使って、1枚で3画面立体視が可能になった。さらに、この状態からDisplayPort経由の2D表示も可能で、3画面で立体視しながら、もう1画面でゲームの情報を得たり、チャットしたりといった使い方が可能になった。また、HDMI経由で3,840×2,160ドットの4K出力にも対応する。
3D Vision Surround+1ディスプレイが可能 | 4K出力にも対応 |
ノートPC用には複数のモデルが用意されるが、一部は従来のFermiコアのものや、Fermiでありつつもプロセスルールが28nmというものも含まれている。詳細は下表の通り。
GeForce GTX 675M | 670M | 660M | |
プロセスルール | 40nm | 40nm | 28nm |
アーキテクチャ | Fermi | Fermi | Kepler |
SP数 | 最大384基 | 最大336基 | 最大384基 |
SPクロック | 最大620MHz | 最大598MHz | 最大835MHz |
メモリ | 最大2GB GDDR5 | 最大3GB GDDR5 | 最大3GB GDDR5 |
メモリクロック | 最大1,500MHz | 最大1,500MHz | 最大2,000MHz |
メモリインターフェイス | 最大256bit | 最大192bit | 最大128bit |
650M | 640M | 640M LE | 635M | ||
プロセスルール | 28nm | 28nm | 28nm | 40nm | 40nm |
アーキテクチャ | Kepler | Kepler | Kepler | Fermi | Fermi |
SP数 | 最大384基 | 最大384基 | 最大384基 | 最大96基 | 最大144基 |
SPクロック | 最大850MHz | 最大625MHz | 最大500MHz | 最大762MHz | 最大675MHz |
メモリ | 最大2GB GDDR5/GDDR3 | 最大2GB GDDR5/GDDR3 | 最大2GB GDDR3 | 最大2GB GDDR5/GDDR3 | 最大2GB GDDR5 |
メモリクロック | 最大4,000MHz | 最大4,000MHz | 最大1,800MHz | 最大3,138MHz | 最大1,800MHz |
メモリインターフェイス | 最大128bit | 最大128bit | 最大128bit | 最大128bit | 最大192bit |
630M | 620M | |
プロセスルール | 28/40nm | 28nm |
アーキテクチャ | Fermi | Fermi |
SP数 | 最大96基 | 最大96基 |
SPクロック | 最大800MHz | 最大625MHz |
メモリ | 最大2GB GDDR3 | 最大1GB GDDR3 |
メモリクロック | 最大2,000MHz | 最大1,800MHz |
メモリインターフェイス | 最大128bit | 最大128bit |
(2012年 3月 22日)
[Reported by 若杉 紀彦]