週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今

2024年06月03日 12時00分更新

ET-MinionがET-Minion 2に進化
性能が4倍向上する

 ここまではET-SoC-1の話だったので、ここからはET-SoC-2以降の話を。まずET-Minionだが、こちらは若干変更したET-Minion 2に進化した。

FMA利用時は2命令/サイクルだが、基本は1命令/サイクルのIn-Order構成

 大きな変化は外付けのアクセラレータ-で、ET-Minionと異なりVector UnitとTensor Unitが独立。Vector UnitはRVV(RISC-V Vector Extension)準拠の512bit幅となった。一方Tensor Unitは2048bit幅に拡張された。

  まず2つに分けた理由であるが、一応技術的には両方を同時に動かすことも可能らしい。ただ目的はそうではなく、Vector UnitはRISC-VのVector Registerに対してのアクセスとなり、一方Tensor Unitは独自の2048bit幅のRegisterのへのアクセスとなる関係で、構造的に分離した方が都合が良かったから、だそうである。

 この結果として、例えばFP16やFP32であれば、ET-Minion比で4倍の性能向上が実現することになった。実際の動作周波数は後述する。ちなみにET-Minionでは最大512サイクル連続してTensor Unitが稼働するが、ET-Minion2はDitzel氏によると「512ではないが連続して稼働する。ただいくつだったか忘れた」だそうだ。

 また、今回FP8までのサポートは追加されたが、FP4やInt 1/2/4に関するサポートはない。これについては「研究レベルではよく取り上げられるが、実際に使うユーザーからの声では、やはり精度が足りない」という判断だそうで、現実問題としてInt 8とFP8/FP16/32/64のサポートがあれば十分、ということだそうだ。

 ET-Minion2が8つでNeighborhoodを構成するのは同じだそうである。このNeighborhoodがL1命令キャッシュを共有するのも同じという話であった。

この図版はわかりやすさを優先してL1などを省いているそうだ

 そのNeighborhoodが4つで、1つのクラスターを構成するのもET-SoC-1に似ているが、異なるのはこのクラスターに1つ、ET-Maxionが搭載されることと、またSRAMの容量が倍増していることだ。

Neighborhoodが4つで、1つのクラスターを構成。PCIeなどは全部別のチップレットに追い出される格好になる

 ただSRAMに関しては、確かに容量は倍だが処理性能が4倍ほどに上がってることを考えると、実際には足りなくなるのでは? と思ったのだが、確認したところ「そもそもそのデータは処理中に何度も再利用するから不足はしない」という返事であった。実際には8MBといっても細かくパーティションを切って、L2やL3、さらにはスクラッチパッドとして使う形になるので、純粋に容量が増えて柔軟性が増すことになるそうだ。

 そしてET-SoC-2であるが、このクラスターを9個並べて1つのチップレットを構成する。9個にもかかわらず、性能は1GHzのInt 8で131.1TOPSと、1つのクラスター(16.384TOPS)の8倍でしかないのは、9つのクラスターのうち1つは冗長クラスター扱いとなるためだ。

ET-SoC-2でET-Maxionをクラスターごとに配したのは、チップレット構成にするとなると、分散させるのが無難と判断したのかもしれない

 ちなみに後述するET-SoC-3では1つのチップレットにクラスターが16個であり、実際に16個となる。つまり性能はET-SoC-2の2倍だ。「なぜ?」と聞いたところ、「クラスターの数を2のべき乗にしたかったから」だそうだ。したがってET-SoC-2では9個のうち1つを冗長扱いにして8つとし、一方ET-SoC-3では16個は変えずに冗長性は他のスキームで確保するという返事であった。おそらく個々のクラスター内部に冗長Neighborhoodあるいは冗長ET-Minion2を設ける格好だろう。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事