$*nyme

blog of a man, by a man, for a better future

半導体チップ業界 最初の狂犬 Cerebras セレブラス

ウエハをまるまる一枚CPUにするという暴挙を現実とした Cerebras。AIチップ界隈を追っていて、一番最初に「頭おかしい(褒め言葉)」と思った企業。未上場だったものの、既にIPO申請のニュースあり。

こんなものが既に5年以上前から商用利用可能なんだから気が狂ってるとしか思えない。

gihyo.jp

※ ちなみに「半導体チップ業界」なんて言葉はない、と思います。半導体業界や半導体製造装置界隈などの、一般的な名称より意味するところがなんとなくわかりやすいかなって思って勝手に呼んでるだけです。

Cerebras Systems(セレブラス・システムズ)

  • 拠点: アメリカ サニーベール(シリコンバレー)
  • 事業内容: 「世界最大のチップ」Wafer Scale Engine (WSE) の開発・製造
  • 創業: 2016年
  • 創業者: Andrew Feldman(アンドリュー・フェルドマン)氏ら
    • フェルドマン氏は以前、SeaMicroというデータセンター向けのサーバーを提供、それを効率良く実現するための技術研究・開発をする会社を創業し、後にAMDに買収された。この買収を機に、AMDはサーバー市場に打って出ることになった。SeaMicroはAMDの企業戦略に影響を及ぼしたといっても過言ではない(過言)。いずれにせよ、かなりの手練れ。
  • 資金調達: 評価額は数十億ドル規模。2024年にナスダックへの上場を申請しており、調達額も桁違いになりそう。

ポイント

  • Wafer Scale Engine (WSE)
    • ウェハーをカットせず丸ごとチップにする、という常識外れの力技
    • GPUなど大量の演算ユニットを接続して計算すると通信遅延が無視できなくなる。なら、最初から全部つながった巨大なチップを作れば、通信遅延ゼロで爆速になるのでは?という「俺が考えた最強のチップ」を、世界最高峰の技術力で実現

2024年 WSE-3発表。4兆個のトランジスタ、90万個のAIコアを搭載。NVIDIAのH100などのGPUと比べて、物理的な面積だけで50倍以上大きい。

ascii.jp

メリット

  • 速度◎: チップ間の通信ボトルネックが物理的に存在しないため異次元の速度で並列処理できる
  • メモリ帯域◎: すべてのメモリが計算コアのすぐそば(オンチップ)にあるため、データの読み出し待ち時間が発生しない。GPUクラスターで苦労する並列化プログラミングが、これ1枚なら「巨大な1つのプロセッサ」として扱えるため、開発が楽になるという利点も。
  • ChatGPTクラスの巨大モデルをトレーニングする際、数百台のGPUを繋ぐ苦労がいらない。

デメリット

  • 物理的制約: チップがデカすぎて既存のサーバーには入らない。専用の冷蔵庫みたいな筐体(CS-3)が必要。
  • 冷却と電源: ウェハー1枚に一気に電気を流すため、発熱が尋常ではない。空冷では無理で、特殊な水冷システムが必須。消費電力も一基で23kWとかちょっと尋常ではないレベル。
  • 柔軟性(設置場所): データセンターの設備そのものをCerebras用に設計し直す必要があるレベル。Amazonでポチって個人的に使う、とかは未来永劫不可能。

Cerebrasの将来性

生成AIのモデルが巨大化し続ける現在、NVIDIAのGPUを数千個つなぐ「通信のオーバーヘッド」が無視できなくなってきている。 その点、Cerebrasのアプローチは、モデルが巨大になればなるほど優位性が増す構造。

ただ、NVIDIAもNVLinkでチップ間の接続を強化しており、どこまでCerebrasが「1枚の優位性」を保てるかはなんともいえない。

特定の巨大企業(中東のAIクラウド企業G42など)や政府機関にはバカ売れしているようなので、ニッチだが確実に需要がある「ハイエンド中のハイエンド」を独占する可能性がある。「常識を疑う」を地で行くスタイル、ロマンの塊のような企業なので、上場後の株価の動きも含めて目が離せない。

余談: なんでこんなことが可能になったのか

チップのサイズを大きくするって、ウエハ上に回路を焼き付ける範囲が広くなる、ってだけでは終わらず、あるラインを越えた途端、必要な要素技術(計測技術や製造技術、素材)に求められる性能が別次元のものに変わってくる。

なぜ突如、ウエハサイズで可能になったのかというのを調べてると、色々とんでもないことをしていた。

1. 「レチクルリミット」の壁を突破する技術

半導体の回路を焼き付ける露光装置は、一度に光を当てられる面積は、通常、切手サイズくらいが限界(レチクルリミット)。 切手サイズより大きなチップは考慮されておらず、物理的に作れません。

Cerebrasの謎技術:TSMCとの共同開発技術 Cross-Reticle Stitching

Cerebrasは、露光装置最大手のTSMCと組んで、常識外れの技術を開発。

普通のチップは、回路と回路の間(スクライブライン)に隙間を空けて切断しています。

にもかかわらず、Cerebrasは、「隣り合うレチクルの境界線を、ナノレベルで完璧に重ね合わせて、配線を繋げる」という技術を開発。 これにより、本来切断されていたはずの何十個ものチップが、電気的に一体化。

TSMCの標準プロセスをハックして、「切らないこと前提」の特殊な焼き方をさせたってことみたい。

なにしてんのこれ。ナノレベルの位置計測と露光装置の位置合わせ、どうやってるんだろう…。

と思ったら、

最下層(FEOL)を繋いでいるわけではなく、許容度の高い「上層(BEOL)の太い配線(μm単位)」を使って、境界線をオーバーラップさせてるらしい。現在の露光装置は、数nmでの露光が可能なので全然いけるって感じの模様。

また、スクライブラインをなくして、その代わりに、隣り合うショット(露光範囲)の境界部分に、「互い違いに噛み合うギザギザの配線パターン」を用意し、多少のアライメント誤差は無視できるようにしたとのこと。

よく考えられてる。

それでも、ウェハー全体で熱膨張による歪み計算などが必要になるため、「TSMCがCerebrasのためだけに専用のレシピ(補正パラメータ)を書いた」ことは間違いないらしく、 1企業にTSMCがここまで専用チューンしてくれたというのは衝撃的。それだけ、価値ある研究とみなされたってことかなぁ。

いやまぁ、国家基幹技術レベルの話だし、さもありなん、か。

2. 「欠陥」の壁を突破する技術

ウェハーには、絶対に微細なチリや製造ミス(欠陥)が含まれています。 普通のチップなら、欠陥があるチップだけ捨てればいいので致命的な問題にはなりません。 しかし、ウェハー丸ごと1枚使うなら、1箇所でも欠陥があったらウェハー丸ごとゴミになります。数億円がパーです。歩留まりは理論上ほぼ0%になります。これが「誰もやらなかった(やれなかった)」最大の理由。

Cerebrasの謎技術:冗長化コアとソフトウェアルーティング Swarm Fabric

この物理的にどうしてもでる欠陥を、コロンブスの卵のような常識の斜め上を行く発想で解決。

「欠陥が出ることは諦める。その代わり、予備を大量に積んで、欠陥を避けて動かせばいい」

冗長化コアとソフトウェアルーティングで回避、という抽象的な説明だと、PhenomIIとか昔のAMD製CPU (出荷時にソフトウェアで無効化されていたコアをBIOSで無理やり復活させられた。)を彷彿させられ、あれと同等の技術を採用したのかってなるのだけど

Cerebrasのウェハーは、各コアは「Swarm」と呼ぶ「2次元メッシュ」の通信ネットワークを使用しており、各コアが独立してメモリコントローラに接続されたAMDのCPUのように、単に「コア1つにつき対応する1つのパスを無効化すればOK」というわけにはいかない。

このため、「壊れたコアを避けて、データを迂回させるバイパス道路を、ハードウェアレベルで自動的に再構築する」 という離れ業をやっている模様。変態すぎる…。

3. 「熱膨張」による物理破壊の壁を突破する技術

シリコンと、それを載せる基板は、熱を加えた時の膨張率が違います。 普通の小さなチップならさほど問題ないのですが、ウェハーサイズの巨大な板になると、熱を持った瞬間に膨張差で歪み、割れるか、接続部分が引きちぎられます。

Cerebrasの謎技術:特注コネクタ Elastomeric Connector

チップと基板の間にシリコンと基板(Main PCB Board)の膨張差を吸収する特殊な素材とコネクタを開発。

何千もの微細なバネのようなコネクタが、熱膨張でズレても追従して電気を通し続ける仕組み。 この「物理的なパッケージング技術」だけでも、特許の塊とのこと。特許明細書(US 2020/0203308 A1)中にはElastomeric Connectorと記載されている。なんかペラペラのシートなんだけどナニコレ…こわい。

Cerebras、製造技術も素材開発もチップ設計も手掛けていて、ほんと何屋さんなの状態…

なんでこんなあらゆる技術を開発できるのか、わからない…わからないよ…

gihyo.jp

これは、半導体製造技術に関わる天才があつまってんな(てきとうな推測)

蛇足 : 社名の由来

社名、狂ってる、と自認してるからケルベロスなのかぁ、

って勝手に思ってたんだけど、正しくは セレブラスだった。

脳を意味するラテン語の「cerebrum(セレブラム)」に由来してるらしい。

なお、ギリシャ神話のケルベロスのスペルはKerberos,。