Vengineerの妄想(準備期間)

人生は短いけど、長いです。人生を楽しみましょう!

書籍 : 心霊電流

はじめに

ひとり読書会、

  • 心霊電流

を読み終えました

vengineer.hatenablog.com

心霊電流

読んでなかったわ。

スティーブン・キング、バンド組んでいますが、主人公はギターリストの回顧録的なストーリー。。。

彼女が20代という反則。。。。

上下巻で 562頁なので、比較的短い作品です。。。

おわりに

スティーブン・キングの新作、下記の3つが今年出ますが、まだ、時間があります。

  • 初夏 : Later
  • 秋 : 幻の中編「コロラド・キッド」「ライディング・ザ・ブレッド」「Elevation」を加えた日本オリジナル中編集
  • Fairy Tale

なので、他の書籍を読みます。。。。。

Ampere Computing の AmpereOne-3 は、chiplet なの?

はじめに

wccftech の下記の記事によると、Ampere Computing の AmpereOne-3 は、TSMC 3nm & chiplet のようですね。

wccftech.com

AmpereOne-3

  • chiplet
  • TSMC 3nm
  • 256 cores
  • PCIe Gen6
  • DDR5

AmpereOne-1

  • TSMC 5nm
  • 192 cores
  • PCIe Gen5 x 128
  • DDR5 x 8 channels

です。

AmpereOne-2 が

ということなので、

AmpereOne-3 は、

  • chiplet
  • TSMC 3nm
  • 256 cores
  • PCIe Gen6 x 128
  • DDR5 x 16 channels

ぐらいで、1 die で

  • 128 cores
  • PCIe Gen6 x 64
  • DDR5 x 8 channels

ぐらいですかね。これだと、AmpereOne-1 と同じですね。

おわりに

Ampere Computing 、IPOしなくて、売上だけで、AmpereOne-2、AmpereOne-3 を開発できるの、どうしてでしょうかね。

vengineer.hatenablog.com

TSMCからTesla Dojoの情報がちょこっと公開された?

はじめに

Tesla Dojo、開発リーダーが辞めたという噂を聞いていますが、TSMCDojoのチップ(ウェハー)を公開したようです。

tom's Hardware から

www.tomshardware.com

InFO-SoW (System-on-Wafer)

下記の図は、上記のサイトから説明のために引用します。右側に Dojo chip の拡大図があります。5 x 5 です。ずーと、各 die を 5 x 5 に並べると思っていましたが、そうではなさそうですね。

下記は右側の拡大図。こちらも説明のために引用します。空いている部分になんか小さな die がいっぱい載っています。。。これはなんなんでしょうか?

他のスライドを見つけました。同じく、tom's Hardware です。

www.tomshardware.com

下図は上記の記事から説明のために引用します。

おわりに

SoW、スゴイですね。。。つまり、Tesla Dojo Chip は、Cerebras CS-X と同じようなWaferの使い方をしていたんですね。。。となると、7nm ですから、1万ドルですね。

TSMCのCoWoS : 2024年からは、CoWoS-Sじゃなくて、CoWoS-Lなの?

はじめに

今週の半導体チップ雑談は、インターポーザのお話。その中で、TSMCのCoWoSの件。現在は、CoWoS-S で、これからは CoWoS-L が出てくると

TSMCの2023のAnnual Reportを見て確認してみたいと思います。

CoWoS-S と CoWoS-L

51頁の5.2 Technology LeadershipのCoWoS のところに、下記のようにありました

CoWoS® advanced packaging service is the leading 2.5D technology to make ultra-high-performance AI and HPC packages by integrating most advanced logic and memory dies on an interposer. Market demands became even greater with the advent of generative AI in late 2022. TSMC qualified the CoWoS®-S Si interposer up to 3.3-reticle size (1 reticle size ~830mm2), with volume production launched in 2023. Beyond 3.3-reticle size, CoWoS®-L with reconstituted interposer of multiple LSIs (local silicon interconnects) increases the momentum for continuous interposer scaling. After its successful development in 2023, the first generation CoWoS®-L technology will enter volume production in 2024. HBM3E, the newest generation of high bandwidth memory, is ready now for production on both CoWoS®-S and CoWoS®-L, while the next generation of stacked memory of HBM4 and process upgrades in CoWoS® advanced packaging service are being planned to meet new performance requirements.

CoWoS-S 3.3-recticle size は、2023年に量産。3.3-recticle size を超えるものは、CoWoS-L ? .CoWoS-Lは2023に開発に成功し、2024年に量産に入ると、

2022年のAnnual Report の8頁には、

For our advanced packaging technologies, the
CoWoS®-S technology that integrates multiple system-on-chip (SoC) chips, high bandwidth memory stacks, and a 3-reticle size silicon interposer successfully entered volume production for customer HPC products in 2022.

また、51頁には、

The new third generation HBM3 was certified on CoWoS-S in 2022. In parallel, CoWoS-L with multiple local Si interconnects (LSIs) embedded in an organic interposer are being developed. Compared with CoWoS-S, CoWoS-L dramatically improved the size limitation of a Si interposer and enabled more features in an interposer to boost overall system performance.

とある。

2022年では、HBM3 + 3-recticle、2023年では、HBM3e + 3.3-rectile ということだったのね。

2021年のAnnual Report では、

The CoWoS® Gen-5 with a Si interposer area up to 2,500mm2 to accommodate at least two SoC logic and eight HBM stacks was qualified in 2021. The new HBM3 (third generation HBM) certification on CoWoS® will be a major focus for TSMC in 2022.

2021年では、2,500mm2 (3-rectile)+ HBM3 を開発

ということで、2021 (3-rectile + HBM3開発)=> 2022 (3-rectile+HBM3量産) => 2023 (3.3-rectile+HBM3e量産)

AMD の MI200は

2021年11月11日の下記のブログでも取り上げましたが、AMDのMI200シリーズ。2 die + HBM x8 です。2021年なのでTSMCの3-rectileは開発途中。ということはAMDTSMCの技術を使っていないということですかね。

vengineer.hatenablog.com

CoWoS-S x4 は無くなったの?

community.cadence.com

の中に下記のスライドがあります。説明のために引用します。

2020年のスライドで、3x rectile (8 HBM)は2021年、4x rectile (12 HBM) は 2023年とあります。3x rectile は 2021年開発、2022年量産とありますが、その次が 4x ではなく、3.3x で 2023年量産です。

そして、3.3x を超えるのは、CoWoS-S ではなく、CoWoS-L になると。。。

おわりに

ずーと、x12 HBM は、CoWoS-S x4 だと思っていましたが、3x => 3.3x というステップになっていることから、4x の量産は難しいと判断し、CoWoS-L にシフトしたということでしょうかね。。。

2022年からCoWoS-Lの開発をしていたようなので、何となく、そんな感じでは?と思います。。。

下図は、TSMC to go 3D with wafer-sized processors — CoW-SoW technology allows 3D stacking for the world's largest chipsから説明のために引用します。Tesla Dojo Chip の SoW (System-on-Wafer) の説明スライドで、CoWoSと比較するためのものだと思います。

  • CoWoS : 3.3-ret., 8x HBM (2023)
  • CoWoS : 5.5-ret., 12x HBM (2026)
  • CoWoS : >= 8-rect., 12x HBM (2027)

とありますね。ここでは、CoWoS-S とは書いてありませんね。ということは、

DRAMを搭載していないAIアクセラレータのその後

はじめに

Twitterの古いTweetを見つけた。自分の2019年11月16日

DRAMを搭載していないAIアクセラレータ

2019年11月時点では、

DRAMを搭載していないAIアクセラレータ

  • Graphcore
  • Cerebras Systems
  • Groq

こちらは、

  • Graphcore : IPU MK1 (16nm) => IPU MK2 (7nm) => IPU BoW (IPU MK2の改善 : 7nm)
  • Cerebras Systems : CS-1 (16nm) => CS-2 (7nm) => CS-3 (5nm)
  • Groq : GroqChip1(旧TSP) (GF14)

で、Groqは変わっていない。。。これは凄い。

HBMを搭載しているAIアクセラレータ

だった。Intel NNP-TはEOLで、Intel はHabanaを買収。その後も、Gaudi 2 => Gaudi 3 と継続、ある意味、成功?

おわりに

GraphcoreやCerebras Systemsは、3回もプロダクト開発しているのに、Groqのチップ開発は1回(現在は新しいチップを開発中とか)って、スゴイですよ。。。

Groq、LLM Inference 、超絶速い、と言われていますが、同じチップを使い続けている方でもすごいです。。。

RISC-V ISA のGPGPU、Vorex v2がリリースされていた

はじめに

このブログでも何度も取り上げている Vortex 。なんか、v2 がリリースされていました。

github.com

Vortex 振り返り

このブログでの Vortex は下記にありますので、見てみてください。

vengineer.hatenablog.com

Vortex v2

github.com

によると、

  • Microarchitecture optimizations
  • 64-bit support
    • RV32IMAF
    • RV64IMAFD
  • Xilinx FPGA support
    • Altera Arria 10
    • Altera Stratix 10
    • Xilinx Alveo U50, U250, U280
    • Xilinx Versal VCK5000
  • LLVM-16 support

のようです。

MICRO56 のスライド

github.com

結構詳しく書いてありますね。

MICROR54/MICRO55 の時のスライドもあるので、GPGPUのHardwareの中身を学びたい時の教材になりそうですね。

おわりに

Vortex v1 だけでなく、v2 が出てきたんですね。v3 になると、何が変わるんでしょうかね。

AMD 7940HS の lspci

はじめに

AMD Ryzen AI にて、XDNA を Linux で使えるようにするのが、

です。

Linuxでの lspci の情報を見つけたので、記録に残します。

AMD 9740HS の lspci

ここにありました。説明のために引用します。

HP EliteBook 845 G10 (SKU 818N0EA#ABU) with 7940HS. Bios V82 Ver. 01.03.02 Linux 6.6

のようです。

c5:00.1 Signal processing controller: Advanced Micro Devices, Inc. [AMD] AMD IPU Device
        Subsystem: Advanced Micro Devices, Inc. [AMD] AMD IPU Device
        Flags: fast devsel, IRQ 255, IOMMU group 25
        Memory at 95200000 (32-bit, non-prefetchable) [disabled] [size=512K]
        Memory at 952c0000 (32-bit, non-prefetchable) [disabled] [size=8K]
        Memory at 2c11100000 (64-bit, prefetchable) [disabled] [size=256K]
        Memory at 95280000 (32-bit, non-prefetchable) [disabled] [size=256K]
        Capabilities: [48] Vendor Specific Information: Len=08 <?>
        Capabilities: [50] Power Management version 3
        Capabilities: [64] Express Endpoint, MSI 00
        Capabilities: [a0] MSI: Enable- Count=1/16 Maskable- 64bit+
        Capabilities: [c0] MSI-X: Enable- Count=16 Masked-
        Capabilities: [100] Vendor Specific Information: ID=0001 Rev=1 Len=010 <?>
        Capabilities: [150] Advanced Error Reporting
        Capabilities: [2a0] Access Control Services
        Capabilities: [2d0] Process Address Space ID (PASID)

BARが4つ

BARが4つあります。

        Memory at 95200000 (32-bit, non-prefetchable) [disabled] [size=512K]
        Memory at 952c0000 (32-bit, non-prefetchable) [disabled] [size=8K]
        Memory at 2c11100000 (64-bit, prefetchable) [disabled] [size=256K]
        Memory at 95280000 (32-bit, non-prefetchable) [disabled] [size=256K]

最初の2番目が32ビット、3番目が64ビット、4番目が32ビット、ということで

  • BAR-0 (32bit)
  • BAR-1 (32bit)
  • BAR-2 (64bit)
  • BAR-4 (32bit)

になっているっぽいです。

AMD XDNA Driver for LinuxPhnix (7040) の BARは、

/* PCIe BAR Index for Phoenix Ryzen 7040 */
#define PHX_REG_BAR_INDEX  0
#define PHX_MBOX_BAR_INDEX 4
#define PHX_PSP_BAR_INDEX  0
#define PHX_SMU_BAR_INDEX  0
#define PHX_SRAM_BAR_INDEX 2

にあります。

  • REG/PSP/SMU : BAR-0
  • SRAM BAR-2
  • MBOX : BAR-4

です。

おわりに

AMD 7040 (7940HS) の lspci の情報を知ることができました。