NVIDIAがGeForce GTX980/970を発表電力効率はKepler世代の2倍に向上【笠原一輝氏寄稿】

2014年09月19日 11時30分更新

　半導体メーカーのNVIDIAは、9月18日（現地時間）にロサンゼルスでPCゲーマー向けのイベント“GAME24”を開催し、その中で同社の最新GPUとなるGeForce GTX980/970を発表した。GeForce GTX980/970は、開発コードネーム“GM204”（ジーエムツーオーフォー）で知られるダイに基づいており、コードネームにMがつくことからもわかるように、NVIDIAの最新GPUアーキテクチャーとなるMaxwell（マックスウェル）アーキテクチャーを採用している。

　すでにNVIDIAはGM107、GM108の開発コードネームを持つMaxwellアーキテクチャーのGPUをノートPC向けの製品として投入しているが、Maxwellアーキテクチャーとしては第2世代の製品となり、処理能力や電力効率が大幅に改善されていることが特徴となる。NVIDIAによれば、従来世代となるGK104（GeForce GTX680など）に比べて2倍の処理能力、2倍の電力効率を実現しているという。

●GK104、GK110、GM204と進化してきたNVIDIAのハイエンド向けGPU

　今回NVIDIAが発表したGeForce GTX980/970は、同社の開発コードネームでGM204と呼ばれるダイがベースになっている。ダイというのは半導体チップそのもののことで、異なる製品のブランド名がつけられている製品でも、あるダイから派生品として展開される手法はCPUやGPUなどのビジネスでは一般的に利用されている。逆に言えば、その製品のダイがなんであるのか、それを理解することは、その製品の本当の姿を理解する上で近道となる。

　NVIDIAのGPUアーキテクチャーは、2009年に発表されたFermi（ファーミないしはフェルミ、製品の投入は2010年）、2012年に発表されたKepler（ケプラー）、そして今年発表されたMaxwellと進化してきており、GM204はMaxwellアーキテクチャーGPUの第2世代の製品という位置付けになる。というのも、すでにGM107、GM108というダイがノートPC用のGeForce 800Mシリーズとして投入されておりそちらが第1世代で、GM204が第2世代というわけだ。

　なお、NVIDIAのコードネームは、GMxxx、GKxxx、GFxxxのようになっているが、Gはどの世代にも共通に使われている文字（おそらくGraphicsのGだと思われる）で、その2番目のアルファベットがアーキテクチャーの世代を示している、MであればMaxwell、KであればKepler、FであればFermiであることを示している。そして204という数字からもわかるように、三桁目の数字が世代を示しており、GM204は第2世代Maxwellアーキテクチャーの04というコードネームがつけられている製品という意味合いになる。

　GM204を従来のハイエンド製品に採用されていたGK110（GeForce GTX780/GeForce GTX Titanなどに採用されていたダイ）、GK104（GeForce GTX680などに採用）と比較してみると、以下のようになる。

	GM204	GK110	GK104
製品	GeForce GTX980/970	GeForce GTX780/Titanなど	GeForce GTX 680など
CUDAコア（最大）	2048	2880	1536
GPクラスター	4	非公表（8？)	4
SM	16	15	8
SMあたりのCUDAコア	128	192	192
ジオメトリーユニット	16	15	8
テクスチャーユニット	128	240	128
ROPユニット	64	48	32
メモリー	256ビット（64ビット×4）	384ビット（64ビット×6）	256ビット(64ビット×4）
L2キャッシュ	2MB	1.536MB	512KB
TDP	165W	250W	195W
製造プロセスルール	28nm（TSMC 28nm HP）	28nm（TSMC 28nm HP）	28nm（TSMC 28nm HP）
トランジスター数	52億個	71億個	35億4000万個
ダイサイズ	398平方mm	-	294平方mm

　NVIDIAのハイエンドGPUは、2012年に発表されたGK104、2013年に発表されたGK110と進化してきた。今回のGM204は、そのGK104、GK110に次ぐ製品となる。

●Maxwellの特徴はKeplerをベースに電力効率を重視した設計に変更したこと

　Maxwellは、基本的にはFermi、そしてそれの改良版となるKeplerの延長線上にあるアーキテクチャーになる。Fermiで、NVIDIAはGPUコンピューティングを意識した、多数の命令を並列に実行できるアーキテクチャーを導入し、Keplerではその並列実行時の性能をさらに高める改良を行なった。具体的には、GPクラスター、SM（Streaming Multiprocessors）と呼ばれる命令実行の単位の切り分けが大きく変わっている。

　NVIDIAのGPUは、大きい順に、GPクラスター、SM、CUDAコアという単位に分解され、ひとつのGPUを構成している。複数のCUDAコアから構成されているのがSMで、そのSMから構成されているのがGPクラスターとなる。従来世代となるKeplerでは、ひとつのSMに192個のCUDAコアが内蔵しており、さらにSM2つでひとつのGPクラスターが構成されている構造となっている。

　GK104ではこのクラスターが4つ、GK110ではこのクラスターが8つある構造になっている（NVIDIAはGK110のクラスター構造を明らかにはしていないが、NVIDIAがクラスター単位でダイのバリエーションを作成しているというこれまでの前例から考えれば、GK110には8つのクラスターがあると考えるのが論理的だ）。例えば、GK104なら192（CUDAコア/SM）×2SM×4GP＝1536CUDAコアという計算になる。

　これに対して、MaxwellではSMには128個のCUDAコアが内蔵される形になっており、そのSMが4つでひとつのGPクラスターを構成している。GM204にはこのGPクラスターが４つある構成になっており、128（CUDAコア/SM）×4SM×4GP＝2048でCUDAコアが2048個ある構造になっている。注目すべきはこのSMの構造が、KeplerとMaxwellでは大きく異なっていることだ。



↑GM204の概要を説明するスライド。GK104に比べて2倍のパフォーマンスを実現している。

　KeplerのSMでは192個あるCUDAコアがひとつのブロックとしてまとめて扱われており、4つのスケジューラー（命令の順番などを調整するユニットのこと）で調整された演算命令がどんどんとCUDAエンジンに割り当てられて実行される仕組みとなっている。この仕組みだと並列実行性は非常に高いのだが、分岐する命令があった場合のペナルティーが非常に大きく、結果的に実行効率が高くない場合が出てくる。



↑Kepler（GK104）のSMブロック図。内部的にさらに4つに分割されているMaxwellに比べると、192個のCUDAコアを利用して一括に並列処理ができることが特徴。ただし、分岐命令があったときのペナルティーは大きく、その場合には無駄な消費電力が発生する。

　これに対して、MaxwellのSMでは、ひとつのSMに内蔵されるCUDAエンジンは128個だが、4つあるスケジューラーに対してそれぞれ32個のCUDAエンジンが割り当てられる形になっているため、分岐する命令があった場合にも、より少ないペナルティーで実行することが可能になる。もちろん並列処理時の性能は低下することになるが、投機実行失敗のペナルティーは低下するので、相対的に命令実行の効率は向上する。



↑MaxwellのSMの概要を説明するスライド。

●第3世代デルタカラー圧縮によりメモリコントローラーの効率を向上させる、NVENCはH.265対応に

　このほか、Maxwellではメモリコントローラーとビデオエンコーダーにも改良が加えられている。GM204は64ビット幅のメモリコントローラーが4つで、トータルで256ビット幅でメモリーにアクセスできるという点はGK104と同じだ。しかし、メモリコントローラーの機能として“第3世代デルタカラー圧縮”と呼ばれる、色データの圧縮率を上げるアルゴリズムが導入されており、平均して25％程度メモリー帯域幅の有効活用が可能になる。



↑第3世代デルタカラー圧縮により圧縮率が向上し、メモリ帯域の有効活用が可能に。



↑第3世代デルタカラー圧縮の活用例。ピンク色になっている部分が圧縮できる部分。これだけ圧縮できれば効果は非常に高い



↑第3世代デルタカラー圧縮などにより平均して25％ほどメモリー帯域幅を節約できる。

　Kepler世代でNVIDIAは“NVENC”という名前のH.264のハードウェアビデオエンコーダーを導入した。このNVENCを、ビデオソフトウェアからのエンコーダーとして利用するだけでなく、PCからSHIELD TABLETなどにPCゲームをストリームするときにエンコーダーとして利用するなどの用途に利用していた。

　また、GPU仮想化などでリモートからGPUを利用する場合にもサーバーGPU側でこのNVENCを利用してH.264にエンコードしてクライアントにストリーム配信するという用途でも使われており、実は非常に活用されていた。MaxwellではこのNVENCはH.265/HEVCに対応し、より圧縮率が高まっている。将来、より高い解像度のゲームをストリーム配信したりという使い方などに活用されることが予想される。

●4K相当の表示品質をもたらすDSRと2×MSAAの負荷で4×MSAAの効果を実現するMFAA

　こうしたハードウェア側の改良だけでなく、NVIDIAはドライバーソフトウェアレベルでも拡張を加えている。大きくいうと2つの機能が追加されており、ひとつがDSR（Dynamic Super Resolution）で、もうひとつがMFAA（Multi Frame Anti-Aliasing）だ。

　DSRは、1080p（1920×1080ドット）のゲームを行う際に、GPUの内部では4K（3840×2160ドット）の解像度でレンダリングを行ない、ラスタライズの段階で1080pにダウンスケーリングして表示する技術。4K解像度でレンダリングすることによりより細かな描画が可能になり、アンチエイリアシング時の表示がより精細になり、1080pのディスプレーでゲームをするときにもより美しい画面表示が可能になる。



↑DSRなしの表示ではジャギーが目立つ表示になっている。



↑DSRありではジャギーがより目立たなくなっており、表示品質が向上している。

　もうひとつのMFAAは、アンチエイリアシングの新しい手法になる。アンチエイリアシングとは、ジャギーと呼ばれる斜めの線の段々表示（3D画面はポリゴンと呼ばれる三角形や四角形を組み合わせて描画する手法がとられているため、斜めの線などを描画しようとするとジャギーが発生する）を抑える仕組みのこと。現在のPCゲームなどで導入されているアンチエイリアシングは、MSAA（Multi Sample AA）と呼ばれる、ポリゴンの内部に複数のサンプルを取って、それを元にどのポリゴンを修正するのかを決めるという手法がとられている。そのサンプル数が2つなら2×MSAA、4つなら4×MSAA、8つなら8×MSAAと表記される。

　サンプル数が多ければ多いほど表示品質が改善されるので、より美しい表示でゲームをプレイすることができる。が、サンプル数が多ければ多いほど、GPUの演算量は増えるのでGPUへの負荷が増えることになる。GPUでの演算が追いつかなければ、フレームレートが下がったりして、ゲームを快適にプレイすることができなくなる。

　そこでNVIDIAが導入したMFAAは、現在のフレームとひとつ前のフレームの両方で2つのサンプルを取ることで、2つのフレーム合計で4サンプルを取ることにする。これにより、4つのサンプルを取っているのと同じような効果を実現することが可能になり、GPUにかかる負荷は2つのサンプルを取っているのと同じ負荷で済ませることができるようになる。つまり、2×MSAAの負荷で、4×MSAAの効果を得るというのがMFAAのメリットになる。NVIDIAによれば、4×MFAAは、4×MSAAに比べて30％程度のフレームレートの向上が確認できたという。



↑MSAAの考え方、4×MSAAでは4つのサンプルをとってアンチエイリアシングを行なう。



↑MFAAの考え方。ひとつ前のフレームも参照して、2サンプル×2フレームで結果として4つのサンプリングを取るというのが基本的な考え方。



↑MFAAと4×MSAAを比較したグラフ。概ね30％程度のフレームレートの違いがある。

　DSRもMFAAも、NVIDIAが用意している設定ツール（GeForce Experience）でゲームごとに自動設定が可能になっており、ユーザーが自分でどのゲームで設定するかを選択することができる。

●上位SKUが6万円弱、下位SKUは3万円台半ばという価格設定

　NVIDIAは今回のGM204ベースの製品として、GeForce GTX980、GeForce GTX970の2製品を導入する。

	GeForce GTX980	GeForce GTX970
ダイ	GM204	GM204
CUDAコア	2048	1664
GPクラスター	4	4
SM	16	13
テクスチャーユニット	128	104
ROP	64	64
ベースクロック	1126MHz	1050MHz
ブーストクロック	1216MHz	1178MHz
L2キャッシュ	2MB	2MB
メモリークロック	700MHz	700MHz
ビデオメモリー	4GB GDDR5	4GB GDDR5
メモリーバス幅	256ビット	256ビット
メモリー帯域	224GB/秒	224GB/秒
ディスプレー出力	DP1.2×3、HDMI2.0、DL-DVI	DP1.2×3、HDMI2.0、DL-DVI
補助電源	6ピン×2	6ピン×2
TDP	165W	145W
価格	549ドル	329ドル

　基本的にどちらも同じダイ（GM204）が利用されているが、GeForce GTX980がGM204のフルスペックをサポートし、GeForce GTX970のほうは16個あるSMのうち3つが無効になる形で提供される。価格はGeForce GTX980は549ドル（日本円で約6万円）、GeForce GTX970は329ドル（日本円で約3万6000円）という価格で提供される。

　GM204のフルスペックを満たす必要があるGeForce GTX980に比べて、3つのSMが死んでいても製品化が可能なGeForce GTX970のほうが歩留まりが高いことは容易に予想できるので、おそらく流通量はGeForce GTX970が潤沢。逆に言えば、GeForce GTX980が欲しい人は、争奪戦になる可能性が高いので早めに動いたほうがいいだろう。

　なお、同時にNVIDIAは従来製品の価格改定も行ない、GeForce GTX760は219ドル（日本円で約2万4000円）へと下げられたほか、GeForce GTX780Ti、GeForce GTX780、GeForce GTX770などに関しては新製品の登場に伴い出荷が終了し、在庫限りとなる。

　このように、Maxwellに基づいたGM204は、なによりも電力効率が重視された製品となっている。製造プロセスルールが同じ28nmなのに、Keplerよりも高い性能を実現しながら消費電力は下がっている、これこそがGM204を採用したGeForce GTX980およびGeForce GTX970のメリットと言っていいだろう。性能だけでなく消費電力にも注意を払いたい、そうしたバランス感覚に優れたユーザーであれば検討してみる価値があると言えるのではないだろうか。