週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす

2024年11月25日 12時00分更新

 11月17日からアトランタでSC24が開催され、11月18日にはTOP500の2024年11月版が公開された。予想通りではあるが、AMDとHPがローレンス・リバモア国立研究所に納入したEl Capitanが大幅に性能を更新、堂々1位を獲得した。以下10位までは下の画像のとおり。このEl Capitanの構成をもう少し見てみたい。

TOP500の2024年11月版。Frontierは2位、Auroraは3位に後退。 富岳は6位となった。またEl Capitanの小規模版であるTuolumneが10位に入っている

AMDとHPが共同開発したスパコンEl Capitan

 El Capitanは、計算部はInstinct MI300Aのみで構成されるシステムである。コア数は1103万9616個で、うちAccelerator/Co-Processorは998万8224個とされる。つまりCPUコアは105万1392個であり、Instinct MI300Aは1個あたり24コアのZen 4が搭載されるため、Instinct MI300Aの数は4万3808個という計算になる。

 逆にAccelerator/Co-Processorの数を4万3808で割ると、Instinct MI300A 1個あたり228コアという計算になる。これは連載751回で説明した個数と同じである。

El Capitan

 さてEl Capitanのノード構成だが、2023年8月23日付の"El Capitan: The First NNSA Exascale System"というスライドを見ると、連載726回で紹介したように、4つのGPU+1つのCPUから構成されるという説明があるのだが、このRabbit-4Uは"Deployed in LLNL EAS3s"(すでにEAS3sに展開済である)という記載がみられる。

El Capitanのノードは、4つのGPU+1つのCPUで構成される。内容的には連載726回で示したスライドとほぼ同じである

 EAS3sとはなにか? を調べたら、ECP(Exascale Computing Project)のインタビュー記事の中に「我々のEAS3(第3世代のアーリーアクセスシステム)は、Frontierと非常に類似したシステムです。MI250X GPUとTrento CPUを搭載しており、(ソフトウェアから見ると)ほぼ同一のシステムです。各ノードにSSDは搭載されていませんが、代わりにRabbitsを導入し、El Capitanでの使用に備えています。AMD GPUの使用準備は、当社のチームにとって非常に容易な作業でした。その結果、El Capitanで(ソフトウェアが)すぐ利用可能になります」という記述があった。

 つまりこのGPU×4+CPUの構成はあくまでもEAS3sのものであり、本番のEl CapitanはこれをMI300A×4で置き換えている可能性が非常に高い。具体的には下の画像のとおりであろう。つまり4つのInstinct MI300Aで1つのノードを構成。2ノードで1枚のCompute Bladeを構成する格好だ。だとするとブレード1枚で8個のMI300Aが搭載されるので、ノード数は10952、ブレード数は5476枚となる。

El CapitanはこのようにMI300A×4に置き換えている可能性が高い

 連載726回の推定ではRmaxが2EFlops程度を推定して4000ノード/2000ブレードという数字を出したが、実際にはこれを超える2.7EFlopsの構成だったこともあり、大幅にノード数が増えることになってしまった。

 次に動作周波数について。Instinct MI300Aは定格ではCPUが3.7GHz駆動、GPUが2.1GHz駆動となっており、FP64での性能はGPUが61.3TFlops、CPUが1420.8GFlopsとなる(AVX512で積和演算を行なうとすると、1サイクルあたり16Flopsになることから計算)。合算すると62.7208TFlopsである。

 丸めて62.72TFlopsとして、これが4万3808個なのでトータルで2747.638PFlopsという計算になり、これはEl CapitanにRpeak(理論ピーク性能)として登録された2746.380PFlopsにかなり近い。つまり最大動作周波数はほぼ定格のままで運用されているものと考えられる。

 消費電力についても検証しよう。Instinct MI300AのTDPは液冷で760W、空・液冷で550Wということになっている。仮に液冷での数字である760Wを採用すると、ノードあたり3040W。ブレード1枚だと6080W。実際にはイーサネットのPHYや、その他管理用の周辺回路などもあるだろうから、とりあえず6100Wとしておく。

 これが5476枚だと、それだけで3万3403.6KWになる。システム全体だと5万KWを超えかねない数字であるが、実際に登録された数字は2万9581KWである。TDPを550Wとするとノードあたり2200W、ブレード1枚で4400W。少し上乗せして4500Wとして、5476ブレードで2万4642KW。ストレージやネットワークスイッチ、冷却装置の分まで加味すると、これでもかなり厳しい。

 したがって、実際にはInstinct MI300A 1つあたり450~480W程度まで落とすように調整して運用している、と考えるのが妥当かと思われる。定格動作周波数を下げるのではなく、消費電力枠をこの450~480Wに設定して、動的に動作周波数の制限をしているのだろう。

 効率の方はRpeak 2746.38PFlopsに対し、Rmax 1742.00PFlopsで63.4%ほど。ただ2位になったFlontierの方もRpeak 2055.72PFlops/Rmax 1353.00PFlopsで65.8%なので、初回の成績としては悪くないという見方ができるだろう。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事