Vengineerの妄想

人生を妄想しています。

Google TPU Trillium (v6e)、GAになったよ!

はじめに

Google TPU Trillium (v6e) が GA になったようです。

cloud.google.com

v6e は、Training 用?

上記のブログには、下記のようなグラフがありました。

Figure 3. Source data: MLPerfâ„¢ 4.1 Training Closed results for Trillium (Preview) and v5p on GPT3-175b training task.

Training での v5p との比較。v5p-4096 と 4 x Trillium-256

v5p の仕様は、

Trillium (v6e) の仕様は、

BF16は、v5p x 2 == v6e ですね。v5p が 2コアで、459 TFLOPs、v6e が 1コアで 918 TFLOPs 、なので4倍ですね。MXUが128x128から256x256で4倍になっているということなので、v6eって、v5pと同じ動作周波数で動いているんでしょうかね。

HBMの帯域は、v5p は 2765 GB/s、1コア当たり、1382.5 GB/s、v6e は 1536 GB/sなので、1コア当たりも同じ 1536 GB/s 。BF16がコア当たり2倍になっているがHBMの帯域は1割程度しか増えていません。

これは、v5e => v6e でも同じ感じ

v5e は BF 197 TFLOPS、HBMの帯域は 819 GB/s。

おわりに

v5e => v6e の比較だけでなく、v5p => v6e の比較をしたことで、ちょっと変わった気がします。

1コア当たり(BF16)

  • v5e : 197 TFLOPS / HBM 819 GB/s (4.157)
  • v5p : 224.5 TFLOPS / HBM 1382.5 GB/s (6.158)
  • v6e : 459 TFLOPS / HBM 1536 GB/s (3.346)

うーん、次は、v6p ではなく、v7e なのかもしれません。。。。

関連ブログ

vengineer.hatenablog.com

vengineer.hatenablog.com

書籍 : 死んだら飛べる

はじめに

ひとり読書会

スティーヴン・キング、ジョー・ヒルの書き下ろし作品など初訳10篇を含む、全16篇の恐怖のフライトへようこそ。

一番よかったのは。

-「解放」ジョー・ヒル/白石朗訳 ★初訳 -「乱気流エキスパート」スティーヴン・キング/白石朗訳 ★初訳

ではなく、

これ、映画で観たことがあった

下記のブログによると、3回も映像化されているんだ。

tkr2000.cocolog-nifty.com

あたしの中では、「ジョン・リンゴー」のもの。。。

映像と全く同じ感じになっていたのが驚いた。てか、小説を充実に映像化していたんだね。

おわりに

このブログでも取り上げた

が映画化決定。

そのキャンペーンで

が 26 %ポイントバックしていたので、ポチリ、読み始めました。

Xiaomi が Smartphone用SoCを開発しているんだって!

はじめに

下記の「スマホ用SoCとスマホメーカーの関係」のブログにて、Q1.2024 の Smartphone の売上 3位である Xiaomi。

vengineer.hatenablog.com

ざっくり年間、1.6億台のSmartphoneを売っています。

このぐらいの台数が売れるのなら、独自にSmartphone用のSoCを開発してもビジネスとしても成り立つのでしょうね。

ということで、XiaomiのSmartphone用のSoCについて、

Xiaom の Smartphone用SoC

Trendforce の記事から

下記の記事では、TSMC 4nm で Qualcomm Snapdragon 8 Gen 1 ぐらいの性能のSoCを開発しているっぽい。

www.trendforce.com

Snapdragon 8 Gen 1 だと、2021年頃

vengineer.hatenablog.com

Qualcomm Snapdragon 8 Gen 1

  • CPU : Armv9
  • 1x Cortex-X2@ 3.0GHz 1x1024KB pL2
  • 3x Cortex-A710 @ 2.5GHz 3x512KB pL2
  • 4x Cortex-A510 @ 1.80GHz 2x??KB sL2
  • 6MB sL3

  • GPU : Adreno next-gen

  • DSP/NPU : Hexagon
  • Memory Controller : 4x 16-bit CH @ 3200MHz LPDDR5 / 51.2GB/s、4MB system level cache
  • ISP/Camera : Triple 18-bit Spectra ISP、8K HDR video & 64MP burst capture
  • Process : Samsung 4nm ?

Snapdragon 8 Gen 1 は、X2/A710/A510なので、Armv9

このぐらいの性能なら、Mid Range の Smartphone 用になりそうですね。

つまり、

  • お高いもの : Qualcomm or Mediatek
  • 真ん中 : 自社製 (Xiaomi)
  • お安いもの : Qualcomm or Mediatek

みたいな感じになるんでしょうかね。

成功すれば、色々と広げるんでしょうね。

おわりに

XiaomiのSmartphone用SoCは、2025年をターゲットにしているようです。が、某社みたいに、怒られないのでしょうか?

www.trendforce.com

関連記事

www.businesskorea.co.kr

Tenstorent の tt-xla

はじめに

Tenstorrentの tt-xla

Googleの下記の「PJRT: Simplifying ML Hardware and Framework Integration」に対応しようとしているようです。

opensource.googleblog.com

これができると、

  • Tensorflow
  • JAX
  • PyTorch

が動くようになるようですね。

OpenXLA

OpenXLA については、ここにありますね。

OpenXLAの関連ブログ

vengineer.hatenablog.com

vengineer.hatenablog.com

tt-xla

github.com

内部的には、

を使うようです。

This project is currently only supported for nebula boards and does not provide support for galaxy boards.

とあるように、

  • nebula

で利用可能のようです。

おわりに

  • TensorFLow
  • JAX
  • PyTorch

が動けば、ユーザーも増えますかね。。。。。

Youtubeに、

「OpenXLA Dev Lab 2024 Nov 14 2024」

www.youtube.com

と

「Building a PJRT Plugin for a Custom Accelerator」

www.youtube.com

なるビデオがアップされていました。

PCIe をチップ間接続用途していたが、そろそろ限界?

はじめに

AI Chip の中には、PCIe をチップ間接続用途として使っているものがあります。

  • Graphcore : IPU (PCIe Gen4相当)
  • SambaNova Systems : SN10/SN20/SN30、SN40は明記していないがたぶんそうだと妄想
  • AWS : Inferentia 2/Trainium

とか

AWS Trainium 2 の NeuronLink v3 は、PCIe Gen5ベース?

下記のSemiAnalysysの記事によると、AWS Trainium 2 の NeuronLink v3 は、PCIe Gen5ベースとなっています。

semianalysis.com

今後は、どうなる?

Graphcoreは、Softbankに買収され、今までのIPU開発からSoftbankの主導で違うものを開発していると思うので無くなったと認識

SambaNova Systems に関しては、今年の2月の下記のブログで、Ethernetを利用感じになっているのかな?と思います。

vengineer.hatenablog.com

そして、AWSですが、下記のプレスによると、

This agreement covers a broad range of data center semiconductors from Marvell, including the supply of custom AI products, optical digital signal processors (DSPs), active electrical cable (AEC) DSPs, PCIe retimers, data center interconnect (DCI) optical modules and Ethernet switching silicon solutions.

とあります。

AWSは、パートナーが Alchip から Marvell に変わるというのではと思っています。Marvellの技術を Trainium 3 に取り込むのかな。。

www.marvell.com

おわりに

Cerebras Systemsは、Ethernet(100GbE) を 12本、CS-1/CS-2/CS-3から出ていますが、この100GbEは FPGAと繋がっていると妄想します。

下記のブログにも書きましたが、FPGAからASICに移行するような感じです。

vengineer.hatenablog.com

LLMになり、チップ/システム間の接続が重要になってきているので、そうなりますよね。

AWSの売上を再確認!

はじめに

AWSがTrainium 2の一般公開を発表しました。

性能は、

  • BF16 : 650 T FLOPs
  • B8 : 1300 T TOPs

と、NVIDIA H100よりは低いものの、Trn2 UltraClusters にて、3D構成のClusterを構築できるようになっています。

そんな、AWS ですが、下記のように、もの凄い売上と利益を上げているので、振り返りたいと思います。

Q3.2024 の利益が、$10B

Q3.2024

  • 売上 : $27,452M
  • 利益 : $10,447M

です。

  • NVIDIA : $35,082M (Data Center : $30,771M)
  • Intel : $13.2B
  • AMD : $6819M

なので、NVIDIAには及びませんが、Intelの2倍です!

ちなみに、Google Cloudは、

  • 売上 : $11,353M
  • 利益 : $1,947M

なので、売り上げで 2.5倍、利益では5倍になっています。

おわりに

AWS

と色々なものがあるので選択肢が多いですね。

Google も同じように

と AWS と同じですが、売上がまだまだですね。下記のように、黒字になったのは、Q1.2023なのですね。

AWS Trainium と Trainium 2 の基板の比較

はじめに

AWS Trainium と Trainium 2 の基板が re:invent 2024 のビデオにあったので記録に残します。

Trainumの基板は、下記のブログにも写真を引用しています。

vengineer.hatenablog.com

AWS Trainium と Trainium 2 の基板の比較

下記のビデオの AWS re:Invent 2024 - Monday Night Live with Peter DeSantis の 「Delivering power efficiently」のところ( 50:16)

youtu.be

Trainium

Trainium 2

Delivering power efficienty ということなので、電源の部分の違い、

Trainium は、パッケージが載っている面で、パッケージの周り

Trainium 2は、背面、そして、よりパッケージに近いところに配置

この違いにより、配線が短くなり、電圧の変動は、下記のように大幅に改善したと

Trainium 2の方が変動が少ないです。特に、LOAD ENDの部分の変動が少ないです。

LOAD STARTよりも、LOAD ENDが少ないところに注目しましょう!。なぜ、そうなのかは、考えてね。

おわりに

今回の発表は、技術的なものが出てきて、良かったですよ!