AMDがついにDX11/OpenCLに対応したRADEON HD5600相当のGPUを統合したAPU、llanoこと『Aシリーズ』を発表!!【後編】

2011年06月14日 13時01分更新

●製造技術の改善で増加したトランジスタと周辺機能の統合

　PCの心臓部として知られるマイクロプロセッサーユニットだが、その歴史をひもといてみれば、周辺部分の統合という歴史を繰り返してきていることに気付かされる。

　例えば、L2キャッシュはその代表例と言える。マイクロプロセッサーには、L1キャッシュとL2キャッシュという2段階のキャッシュメモリーが内蔵されている（製品によってはL3キャッシュが搭載されている場合もある）。

　キャッシュメモリーとは、マイクロプロセッサーほどは高速ではないメインメモリ（DRAM）からデータを読み込んでいる間、プロセッサー内部の実行ユニットが待たされることにより発生する待ち時間（ストールと呼ばれる）を防ぐために考えられた手法。そして、キャッシュメモリーは何度も使うデータを保存したり、将来使う可能性が高いデータなどを先読みして置いておく高速メモリーのことだ。

　1990年代の前半までキャッシュメモリーは、L1キャッシュこそプロセッサーに内蔵されていたものの、L2キャッシュはマザーボード上に実装されるという形になっていた。製造技術が現在に比べればまだまだ未熟で、キャッシュメモリーをマイクロプロセッサーに統合するにはコスト的に見合わなかったからだ。

　しかし、1996年にIntelが発売したPentium ProではL2キャッシュがパッケージレベルで統合され、さらに1998年に発売したCeleronプロセッサー（開発コードネーム：Mendocino）でダイ（パッケージの中に封入されているマイクロプロセッサーの実体）に統合され、現在発売されているすべてのx86プロセッサーはL2キャッシュがダイに統合されている。

　同じようなことは、メモリコントローラーにも言える。元々メモリーコントローラーは、専用バスで接続されたチップセットと呼ばれるマザーボードの周辺チップ側に実装されていた。

　メモリーコントローラーがマイクロプロセッサーにダイレベルで統合されたのは、2003年にAMDが投入したOpteron/Athlon 64（開発コードネーム：Hammer）が初めて。一方、Intelは2009年にリリースされたCoreプロセッサ・ファミリー（開発コードネーム：Nehalem）まで待つ必要があったが、今年の頭に発表された第2世代Coreプロセッサ・ファミリー（開発コードネーム：Sandy Bridge）で完全に統合され、現在に至っている。

　なぜ、プロセッサーメーカーは、マイクロプロセッサーの外側にあった機能を、プロセッサーに取り込んでいくのだろうか？　その背景には、“ムーアの法則”という言葉に代表される製造技術の進化がある。

　ムーアの法則とは、Intelの創始者であるゴードン・ムーア氏が提唱した「製造技術の進化により、18～24ヶ月でひとつのチップに実装できるトランジスタは倍になる」という見通しのこと。

　実際半導体メーカーはこの予測の通りに、2年に1度新しい製造技術を導入して、トランジスタと呼ばれる半導体の最小単位の1チップに実装できる数を倍にしている。

　一般的にトランジスタが増えれば、マイクロプロセッサーに実装できる機能を増やすことができる。このため、プロセッサーメーカーはマイクロプロセッサーにL2キャッシュを実装したり、メモリーコントローラーを内蔵したりができるようになってきたのだ。

　また、トランジスタが増えれば、従来はそれを回路設計の改善などに利用することで、クロック周波数を上げる方向に利用してきた。しかし、クロック周波数をあげると、それに伴って消費電力が増えすぎてしまい、製品によっては150Wを超えるような消費電力を必要とする製品がでてきてしまった。

　そこで、プロセッサーメーカーは方針を転換し、ムーアの法則によって増えたトランジスタをプロセッサー内部のCPUコアなどを増やす方向に使うようになってきた。デュアルコア、クアッドコアのようにCPUコア数が増えてきた背景にはそうした事情があった。

　そして、今その延長線上にある方向として、従来はチップセットや単体チップとして存在していたGPUをマイクロプロセッサーに統合してしまおうという動きが盛んになっている。

　実際そうした製品は一昨年前から登場しつつある。x86プロセッサーで初めてGPUを統合したのは、2009年の暮れに発表されたIntel Atom N455（開発コードネームPineview）で、Intelからは2010年初頭にパッケージレベルでGPUが統合されたCoreプロセッサ・ファミリーが登場し、今年の頭にダイレベルで統合された第2世代Coreプロセッサ・ファミリーが登場し、現在に至っている。

　AMDからGPU統合プロセッサー（AMDではAPUと呼ばれる）が登場したのは、今年の頭に発売された『Eシリーズ』（開発コードネーム：Zacate）ないしは『Cシリーズ』（開発コードネーム：Ontario）で、低価格かつ低消費電力向けのコンパクトな新設計のCPU（Bobcatコア）に、RADEON HD5000シリーズのローエンドクラスGPUが統合された製品として登場した。

　この『Eシリーズ』や『Cシリーズ』は、ここ数年のAMD製品としてはかなり成功した部類の製品となった。低消費電力ながらウィンドウズ7が快適に利用できるGPU性能を備え、IntelのAtom搭載製品に比べて高い性能を示したからだ。

　AMDの上級副社長兼製品事業本部事業本部長のリック・バーグマン氏は「AMD Eシリーズ/Cシリーズ APUは我々の予想を上回る需要があり、第1四半期に計画していた製品をすべて売り切った」と述べ、APUがAMDの予想を上回る売り上げを実現したことを誇った。


第1四半期分に製造したE/Cシリーズは売り切れ


AMD上級副社長兼製品事業本部事業本部長のリック・バーグマン氏

●GLOBALFOUNDRIESの32nmプロセスルールで製造した2つのLlano

　そうした『Eシリーズ』や『Cシリーズ』の成功を受け、次の段階につなげるのが今回紹介する『Aシリーズ』だ。これまで開発コードネームLlano（ラノ）で知られてきた『Aシリーズ』は、AMDのメインストリーム向けのマイクロプロセッサーであるPhenomシリーズに採用されているCPUコア“Starsコア”に、RADEON HD5000シリーズのメインストリーム向けGPUを統合した製品になる。

　『Aシリーズ』は、2008年にAMDから分離したファウンダリーメーカーであるGLOBALFOUNDRIESの32nmプロセスルールを利用して製造している。GLOBALFOUNDRIESの32nmプロセスルールは、新たにHigh-Kメタルゲートと呼ばれる新しい素材を利用したゲート（トランジスタのスイッチ部分）を採用し、従来よりもトランジスタから漏れ出す電力（リーケージパワー）も、動作時の消費電力（アクティブパワー）も少なく、電力効率が優れているのが特徴だ。

　この32nmプロセスルールは、これまでAMDがPC向けプロセッサー（例えばPhenomII X6など）の製造に利用してきた45nmプロセスルールに比べて、1世代微細化された最先端の製造技術になる。

　このため、ダイ上に実装できるトランジスタ数を増やすことが可能になり、そのぶんをGPUに割り当てることで、大きな進化を果たしている。実際、AMDの製品マーケティング部長ジョン・テイラー氏によれば、『Aシリーズ』のダイサイズは228平方mmで、従来の45nmプロセスルールで製造したCPU（200平方mm）、40nmプロセルルールで製造したGPU（108平方mm）、チップセット（66平方mm）の3つ（合計で374平方mm）がワンチップになっているのに、クアッドコアCPUよりもわずかに大きい程度に収まっている。


AMD製品マーケティング部長ジョン・テイラー氏

　今回AMDは32nmプロセスルールにあわせて回路設計を見直している。例えば、内蔵プロセッサーコアはそれぞれが独立してC6ステートと呼ばれるほとんど0に近い消費電力になる状態へと移行できる。使っていないコアをC6へと移行させることで、平均消費電力を大幅に削減することが可能になっている。


コアごとに電力供給を止めて柔軟に省電力化

　AMDは『Aシリーズ』向けに2つのダイバリエーションを用意している。開発コードネーム、Llano1（ラノワン）、Llano2（ラノツー）がそれで、前者はCPUがクアッドコア、後者がデュアルコアで、内蔵GPUのエンジン数にも違いがある。

　このうち今回発表されたのはLlano1の方で、Llano2は今年の後半（OEMメーカー筋の情報では第4四半期）に計画している。

　なお、今回発表されたLlano1コアの『Aシリーズ』には後述する製品ラインアップではデュアルコア版が存在するが、これはCPUコアのうち2つをつぶしたバージョンになり、ネイティブのデュアルコアではない。このため、消費電力はクアッドコアと同じになり、より省電力が求められる薄型ノートPCなどに採用されるには、Llano2のリリースを待つ必要がある。

　本記事では特に断りのない限り、『Aシリーズ』のことは、Llano1のこと指していると考えていただきたい。


APUはCPU、チップセット、GPUを1チップに収納


ノートPC向け『Aシリーズ』のプラットフォーム“Sabine”

●Starsシリーズのクアッドコアを内蔵した『Aシリーズ』


『Aシリーズ』のダイ写真

　『Aシリーズ』のCPUコアは、基本的にはPhenomII X6などに採用していたマイクロアーキテクチャー（開発コードネーム：Stars）の改良版となるHusky（ハスキー、開発コードネーム）と呼ばれるプロセッサーコアを4つ内蔵している。

　基本的な構造はほかのStarsコアを採用したCPUと大きな違いは無い。128KB（64KBデータ＋64KB命令）というL1キャッシュ、各コアに1MBのL2キャッシュというキャッシュ階層を構成しており、ハードウェアによる命令の先読み機能、命令やデータの読み込みウインドーサイズの増大などの内部構造の改良によって、前世代に比べてクロック周波数あたりの実行できる命令数効率を6パーセント改善した。


従来のStarsコアよりも若干効率を改善

　なお、L3キャッシュは内蔵していない。L3の搭載は性能向上につながるが、その代わりにダイサイズの上昇を招く。ダイサイズの上昇は、製造コストの上昇につながり、消費電力も増えることになる。Llano1のダイサイズである228平方mmはメインストリーム向けPCのダイサイズとしては大きな部類に入るので、そのあたりのトレードオフを換算して削ったと考えられる。

　AMDは『Aシリーズ』を設計するにあたり、CPUコアとGPUコアの内部構造にはあまり手をつけず、それらをどのように効率よく統合するかに主眼を置いて設計している。

　このため、GPUとCPUを結ぶノースブリッジ機能、及びメモリーコントローラーの効率を上げる設計が施されている。具体的には、GPUからCPUやメモリーにアクセスする通常の手法とは別に、CPUとGPU間でメモリーやキャッシュの整合性を確保するための“Fusion Compute Link”と呼ばれる専用バスが用意されており、これらを利用して整合性の確保が行われ、GPUからCPUやメモリにアクセスするときの帯域を圧迫しないような設計になっている。


『Aシリーズ』のバス構成

　メモリーコントローラーは2チャネルのDDR3メモリーに対応。ノートPCの場合は最大でPC12800（DDR3-1600）、デスクトップPCの場合はPC15000（DDR3-1866）まで対応する。デュアルチャネル構成時でノートPCの場合は毎秒25.6GB、デスクトップPCの場合は最大で毎秒29.8GBのメモリー帯域を確保している。

　また、ノートPCの場合にはDDR3Lと呼ばれる電圧が1.35V（通常のDDR3は1.5V駆動）と低電圧版のDDR3を利用することも可能で、その場合はPC10600（DDR3-1333）までの対応となるが、メモリーの消費電力を抑えられる。


デュアルチャンネルのDDR3に対応

　そして、『Aシリーズ』では、IntelがNehalem世代のプロセッサーで採用した“Turbo Boost Technology”と同じような“AMD Turbo Core”と呼ばれるオーバークロック機能を標準で用意。“Turbo Boost Technology”は、チップ上のアナログ回路の温度計を利用してプロセッサーの温度を測定し、その温度に余裕がある場合にクロック周波数を引き上げる。

　それに対して『Aシリーズ』は、プロセッサーの負荷をみて予想される消費電力から、マージンをデジタル的に演算して、クロック周波数を引き上げる仕組み。余裕を計算する方法がアナログかデジタルかという違いはあるものの、GPUのクロック周波数を含めて負荷に応じてオーバークロックするというアプローチは基本的には同じモノだと考えていいだろう。


自動オーバークロック機能“AMD Turbo Core”

●RADEON HD5600シリーズ相当のGPUとなる“Sumo”コアはUVD3にも対応

　『Aシリーズ』に統合しているGPUコアは、開発コードネーム、“Sumo”（スモー）。AMDの副社長兼グラフィックス部門CTO、エリック・ディマース氏は「Sumoコアは基本的にはRedwoodコアを改良し、UVD3を追加したものとなる」と説明する。

　Redwoodとは、RADEON HD5600/5500シリーズに採用されているGPUコアなので、AMDのメインストリーム向けの単体GPUが『Aシリーズ』に統合していると言ってよい。RADEON HD5000シリーズは、いわゆるDirectX11（Direct3D 11、以下DX11）、OpenCL 1.1に対応しており、この点がIntelの第2世代Coreプロセッサ・ファミリー（Sandy Bridge）に対する大きなアドバンテージになる。

　Sumoコアは、技術的には5つのSIMDエンジンを備え、その中にそれぞれ80個のRADEONコアとよばれる演算器を備えている。つまり合計で400個のRADEONコアを持っていることになる。

　ただし、すべてのSKU（スキュー、製品ラインアップ）でこの400個が有効な訳ではなく、SKUによっては4つのSIMDエンジンで320個、3つのSIMDエンジンで240個というバリエーションを用意。ただし、これは複数のダイを用意しているという訳ではなく、5つあるうちのSIMDエンジンのうち1つないしは2つが無効になっているという形だ。


内蔵GPUはRADEON HD5600シリーズと同等

　AMDのディマース氏によれば「Sumoエンジンは、ピーク性能として単精度で480GFLOPSの演算性能を持っている」と、そのポテンシャルは非常に高いと言える。ただし、実際には後述する『Aシリーズ』の最高SKUとなる『A8』でもピーク性能は355GFLOPSにとどまっている。


GPUコアのポテンシャルは480GFLOPS（単精度）


A8はすべてのSIMDエンジンが有効

　これはGPUのクロック周波数がノートPC向けでは444MHzと低めで、さらにメインメモリーもPC12800 DDR3のデュアルチャネルで帯域幅は毎秒25.6GBと、こちらもデスクトップPC向けよりも低めに抑えられていることが影響している。現代のGPUではメモリー帯域が性能に与える影響が非常に大きいのだ。

　SumoエンジンのRADEON HD5000シリーズと比較した大きな強化点としては、ディマース氏の言うようにUVD3への対応だ。UVD3はRADEON HD6000シリーズから搭載されたハードウェアデコーダエンジンで、UVD2のMPEG4 AVC/VC-1/MPEG2（iDCT）のハードウェアデコードに加えて、ブルーレイ3Dで必要となるMPEG4 MVCや、MPEG2、MPEG4 Part2/DiVX/Xvidへ対応する。


UVD3に対応しブルーレイ3Dも余裕で再生


AMDの副社長兼グラフィックス部門CTO エリック・ディマース氏

●トータルで24レーンのPCIエクスプレス（Gen2）に対応、USB3.0対応チップセットも用意

　『Aシリーズ』は、トータルで24レーンのPCIエクスプレス（Gen2）をサポート。ただし、24レーンのうち、4レーンはディスプレー出力に、別の4レーンはチップセットとの接続に利用され、dGPU（単体型GPU）との接続は残りの16レーンを利用する。


PCIエクスプレスの構成

　内蔵GPUのディスプレーコントローラーは2系統あり、2系統のデジタル出力が可能だ。ノートPCの場合には、内蔵ディスプレーで1系統使われるので、それ以外にディスプレーポートやHDMIなどのデジタル出力ないしはチップセットを経由してVGA出力を実装できる。


ディスプレー出力の組み合わせ

　PCIエクスプレス×16にはdGPUを接続して利用できる。AMDのdGPU（RADEON HD6000シリーズ）を接続した場合には、クロスファイア環境で利用でき、dGPUに加えて、内蔵GPUも演算やレンダリングなどに利用することで、より高い3Dグラフィックス性能を実現できる。


ｄGPUとiGPUでクロスファイアーが可能

　また、RADEON HD6000シリーズは、GPUを動的に切り換える機能も備え、あらかじめAMDが用意したプロファイルか、ユーザー自身の設定でアプリケーションによって内蔵GPUを利用するか、dGPUを利用するかを切り換えられる。

　『Aシリーズ』のチップセット（AMDではFCH＝Fusion Controller Hubと呼んでいる）は、開発コードネーム、Hudson M3/M2で知られるチップセット、A70MとA60Mだ。

　基本的なスペックはSATA 6Gbps、PCIエクスプレス（Gen2）4レーン、PCIバス、VGA用DAC、ギガビットイーサネットMACなどをサポート。そして、A70MはUSB3.0を4ポートとUSB2.0を10ポート、A60MはUSB 2.0を14ポート実装できる。

　チップセットにA70Mを選択した場合は、USB3.0を他社製を導入する追加コストなしで実装でき、チップセットのネイティブサポートが2012年になるIntelに比べてメリットのひとつと言える。

　なお、HudsonのTDPは4.7W（A70M）と2.7W（A60M）になる。USB3.0なしのA60Mを選択すると、Intelの第2世代Coreプロセッサ・ファミリー用のチップセットであるIntel 6シリーズがSKUに依存するものの3.4～3.9Wでやや低めになる。この点も『Aシリーズ』のアドバンテージになるだろう。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう