週刊アスキー

  • Facebookアイコン
  • Xアイコン
  • RSSフィード

1000A超のAIプロセッサーをどう動かすか? Googleが実践する垂直給電(VPD)の最前線

2026年05月11日 12時00分更新

 前回はインテルの5kW GPUに対応するPower Deliveryの話を説明したが、これはインテルファウンドリーが提供するソリューションを前提にしている議論が中心であった。ではインテルファウンドリーを使わないメーカーでは? ということで、インテルに続いてISSCC 2026で行なわれたGoogleの"Power Delivery Demands and Trends in Data Center AI Processors"(F3.2)の内容を解説しよう。

データセンター全体を襲う「電力の壁」と
AIチップが抱える4つの困難

 言うまでもなくGoogleもまた、自社のシステムの消費電力増に直面している。この講演が行なわれた時点ではTPU v8のIronwoodがベースだが、連載852回で紹介したようにIronwoodのTDPは157.5Wほどと推定されている。

 これ単体だとそれほど大きな数字ではないのだが、下の画像に示すように1枚のボードにこれが4つ搭載されているし、Network I/F(OCSにつながる光モジュール)その他まで入れるとラフに言って1枚あたり1kWを下回る程度。これが収まるラックはおおむね100kWほど、データセンター全体では100MWのオーダーになるわけだが、次世代はこれが10倍になる、としている。

チップが10kWは多すぎる気はするが、Rubin UltraやMI400クラスでは2kWオーダーになり、その先はさらに増加すると想定されているため、やや大げさではあるが非現実的ではない。ラックの1MWやデータセンターの1GWはもうそういう想定で設置・建設が進んでいるのは事実

 そしてAIチップのTDPが急増しているのは御存知の通りだが、単にTDPが増えるというだけでなく、以下の困難が付きまとうことになる。

デナード則(プロセスが微細化しても電力密度は一定)が崩壊したのは2003年頃(インテルの90nmが一番最初に崩壊に直面した)なので、もうデナード則が通用しない時期が20年以上続いているわけだ

各ビデオカードの比較表
EDP(Electrical Design Point)が急増 EDPはIntelで言う所のPL2にあたる。要するにピークで供給できる最大電力の設定だが、TDPが増えるという事はEDPはその1.5~3倍を想定しておかないとまずい訳で、これはVR(Voltage Regulator)の設計を困難にする
電力密度 チップの大きさそのものは変わらない(Reticle Limitに引っかかる)がプロセスの微細化でロジック密度そのものは上がっている。これにともない、電力密度もぐんぐん上がっている(もはやプロセスを微細化しても消費電力が減らない)わけだが、これに加えて3D積層技術が実用化され始めたことでさらに電力密度が上がる(底面積は変わらないのにトランジスタ数が増える)ことになる。
di/dt 単位時間当たりの電力変動量で、これは動作周波数向上が主要因ではあるが、消費電力の増加もこれに一役買っている。これはさらにVRの設計を困難にする。
パワードメインの数の増加 消費電力削減を狙って、内部のブロックを細かく分割して、それぞれ最適な動作周波数にするなど、不要なブロックのスリープ/シャットダウンを行なうのはもはや必須の技術だが、ということは分割したブロックごとにそれぞれ別々のVRが必要になる。これが3D積層になると、その数がさらに増えることになる。

 VRの話は一旦おいておくとしても、ラック内の電源ユニットがどんどん増えざるを得ない状況になっているのも事実である。

さすがにCompute Bladeが数枚だけで100kWを超えたりはしないので、一番右の構成はやや大げさではある

 もちろんこんな構造は話にならないので、実際には連載855回で紹介したMt.Diabloのように、Compute Bladeを収めたラックの脇に、そのラック向けの電源関連ユニットをまとめた別のラック(Sidecar)を並べるという構造に舵を切っているわけだが、もう次世代データセンター内の給電は800V(±400V)になるのは確定している。

 ちなみに一番下のSynchronized ML workloadというのは、おそらく連載852回の最後で触れた、Google Project Smoothieのことを指しているものと思われる。

 Googleによれば、こうしたAIデータセンターの場合、パワーグリッド(配電網)にも影響を与えやすいので、供給電力の立ち上がり/立下りを穏やかにするなど、電力変動や電力の品質監視、ライドスルー(正確にはFTR:Fault Ride Throughで、電力系統に変動があっても運転を継続すること)の確保、それとリアルタイムの情報収集/レポーティングなども必要とされている。要するに従来のデータセンターとはまったく別物な要求が出てくるわけだ。

右のグラフ、スケールが示されていないのでなんとも言いようがないのだが、AIの方が変動が大きいのは間違いない

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事