効率が85.3%とかなり高め
さてJUPITER Boosterの全容を簡単に紹介したところで、もう少し分析をしたい。まずTOP500における同システムのRpeak(理論性能)は930.0PFlopsと説明されている。ここで言う演算性能はFP64、Hopperで言うならTensor Coreを使わない場合の性能であり、GH200は34TFlopsと説明されている。
ちなみにこの数字はHopperの方である。ではGraceの方は? というと、128bit SVE2エンジン×4を搭載しており、定格は3.1GHzだがSVEを利用時は3GHz駆動となっている。3GHzだとFP64の性能はSVE1個あたり4Flops/サイクルなので、3GHz×72コア×4Flops/サイクル×4=3.456TFlopsという計算になる。
さて、この理論性能を計算すると(34+3.46)×2万3536=88万1658.6TFlopsで881.7PFlops程度となり、Rpeakの値と一致しない。逆にRpeakの値に一致させるためには、2万4827個ほどのGH200が必要になる。もしくはHopperの性能を定格より引き上げ、36TFlops程度になるようにしているか、どちらかである。
可能性という意味ではHopperの動作周波数を引き上げる方が実装は容易である。もともとHopperの場合、1つのSMXに16×4で64個のFP64演算器が搭載されている。これが132個なので、Hopperの側の動作周波数はほぼ2GHz程度が定格と考えられる。これを2.13GHzくらいに設定すると、Hopper1つ当たりの性能は36.3TFlopsまで向上し、システム全体で言えば(36.3+3.46)×2万3536=928.5Plopsとなり、ほぼRpeakの値に一致する。
こうなると消費電力の増加が気になるところだが、実のところGH200の定格消費電力は450~1000Wと極めて幅があり、2GHz→2.13GHz程度の向上なら動作周波数はそこまで極端に増えないだろう。
次が効率であるが、Rpeakが930PFlopsなのに対し、Rmaxは793.4PFlopsで、効率は85.3%とかなり高めである。これは率直に素晴らしい数字で、7位の富岳(82.3%)よりも性能がいい。なにせこれを超える効率を示しているのは45位のMareNostrum 5 GPP(86.5%)だが、こちらはRpeak 46.3Pflops/Rmax 40.1Pflopsと性能が一桁小さい。
Xeon Platinum 03H-LC 56Cを2基搭載したLenovoのThinkSystem SD650 V3を6480台集積したシステムで、CPUのみでぶん回すシステムだったことが効率の高さにつながったように思える。CPUとGPUの併用という意味では、AuroraはともかくInstinct MI300Aを使っているシステムでも効率は70~75%程度(いやこれでも十分高いのだが)であり、この規模のノード数で85%超えを達成したJUPITER Boosterは驚嘆に値する。
もっともこれ、JUPITER Boosterが実効790PFlops程度であるからこの程度の効率が維持できているという話でもある。もし実効1EFlopsを狙おうとすると、同じ高率だとしてもGH200の数を2万9664個まで増やす必要がある。ノード数で言えば5884ノード→7416ノードまで、1500程増やす必要があるのだが、それをDragonFlyでフラットに収容するのはやや厳しそうで、もう1段DragonFlyのネットワーク階層を増やさないと駄目かもしれない。そうなるとさすがにこの効率は維持できないだろう。
性能/消費電力比もなかなか優秀で、JUPITER Boosterは60.62GFlops/W。これはEl Capitanの58.89GFlops/Wをわずかに凌ぎ、Frontierの54.98GFlops/Wよりもだいぶいい。といっても、Green500のリストを見るとわかるが、60GFlops/Wを超えるシステムは22あり、JUPITER Boosterは21位である。
そのGreen 500のトップは先に出たJEDIで72.7GFlops/Wを実現している。小規模なシステムほど性能/消費電力比を引き上げやすい(主な理由はネットワークが小規模で済むので、ここに費やす電力が大幅に減る)ことを考えれば妥当というべきか。
ちなみにJUPITER Boosterは5884ノードで1万3088.23KWだから、単純計算だと1ノードあたり2.22KW、GH200が1枚あたり556Wとなるが、これには冷却システムとかネットワークなどが一切入っていない。
それを加味するとどう考えても450WというGH200の消費電力の最低値ギリギリくらいで動作していないと間に合わないというか、GH200が1個あたり450Wだとしても合計で1万591.2KW程になるので、残り3000KW弱でネットワークや冷却システムなどを全部まかなえるかやや疑問だ。実際にはもっと消費電力が低いのかもしれない。
こうしてみると、意外にGrace Hopperの性能が高いというか、Instinct MI300Aが霞むほどの好成績を出していることが見てとれる。では今後、GH200を使ったシステムがグンと増えていくか? というと、少し疑問だ。HPC向けではFP64のVector性能がまだ強く求められるが、NVIDIAはBlackwell以降はFP64 Vectorを増強していない。もちろんHopperベースでいい、というサイトはそれでもあるだろうが、大勢とは言いにくいだろう。
もう1つは、Linpack性能こそ高いものの、HPCGの方はあまり芳しくないことだ。JUPITER BoosterはHPCGの測定をしていないが、JEDIの方はしており、これが60.50TFlopsでランキング107位である。こちらに関しては、NVIDIA A100ベースのSpartan2(TOP500のランキング476位)の方が性能が上(66.70TFlops)ことを考えると、Linpack以外の最適化はこれから? という感じもある。
AIに全振りしている現在のNVIDIAは、今後「非AIの」HPC市場にどのくらいサポートの余力を割くつもりなのか、というあたりが見えてこないと、そこまで台数は増えないかもしれない。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります
