スーパーマイクロ、液冷サーバーの最新動向を解説

渡邉利和

2024-12-16 11:17

　米Super Micro Computer（Supermicro）の日本法人スーパーマイクロは報道関係者向け勉強会を開催し、事業概要や最新のGPUサーバーについて紹介した。

　ゼネラルマネージャー、FAE＆ビジネスデベロップメントの佐野晶氏は、2024年6月末までの同年度における売上高が$14.9B（1ドル150円換算で約2.2兆円）となったことを紹介。「AIブームが来ていることもあり、2023年は$7.1B、2022年は$5.2Bという形で非常に売上高が伸びている」とし、2025年度の売上高目標は$26B～$30B（約3.9～4.5兆円）だと語った。

スーパーマイクロゼネラルマネージャー、FAE＆ビジネスデベロップメントの佐野晶氏

　Supermicroの特徴として同氏は、本社の米シリコンバレー（カリフォルニア州サンノゼ）が開発拠点かつグローバルで最大の製造拠点であることを挙げ、「米国にサーバーの製造工場を持っているところがユニークで、米国の国家機関にも納品している」と語った。日本市場には、台湾工場から運んできているという。

Supermicroの概要
※クリックすると拡大画像が見られます

　急成長の理由でもあるAI対応に関して、佐野氏は「NVIDIAも当社と同じ1993年にサンノゼで創業している。創業者であるCharles LiangはNVIDIAの創業者のJensen Huang氏と同じく台湾出身で、AMD CEOのLisa Su氏も含めた台湾つながりがある」とのエピソードを紹介し、「GPUサーバーに関しては、昔からNVIDIAと密に開発している」と説明した。調査会社が発表した国内のサーバシェアでは、ODMダイレクトを除くサーバーメーカーとしては2024年の第1/2四半期の二期連続で売上高／出荷台数共にトップだといい、この点もGPUサーバーが好調である理由だという。

　佐野氏は、同社のビジネスフォーカスとして「ビルディングブロックソリューション」「ラックスケールソリューション」について取り上げた。ビルディングブロックソリューションの基本となるブロックとは、「サーバーの根幹となるマザーボード、I/O部分、シャーシ、電源、ケーブル、サーマルソリューション、ヒートシンクなど、個々のパーツを全部一からパーツとして開発しており、社内でインテグレーションしてサーバーに仕立てている」と明かした。

　プロセッサーやチップセットなどの半導体は進化が速く開発スパンがごく短いが、一方メモリーやストレージデバイス、ケーブルやシャーシなどは長期にわたって使い続けられるため、これらをブロック状に開発して組み合わせている。「近年の生成AI向けソリューションでGPUサーバーが必要となったが、非常に発熱量の大きいGPUをシステム化する際にも全てを一から作り上げるのではなく、今までに作ったさまざまなブロックを組み合わせることで、GPUサーバーを組み上げられる」という。

　ラックスケールソリューションもGPUサーバーと密接に関わっている。従来同社はサーバーメーカーとしてサーバー単体での販売が多かったが、GPUサーバーでは同社内でさまざまなコンポーネントをラックに収容し、ラック単位で出荷する形が増えてきているという。これは、最新世代のGPUなどが極めて発熱量が多く、高効率な冷却システム込みでないと運用上支障が出るレベルになっていることが背景にある。

　Supermicroは液冷システムのモジュールも自社開発しており、チップに取り付ける「コールドプレート」やラック下部に設置して熱交換を行うCDU（Cooling Distribution Unit）や冷媒の流路となるCDM（Cooling Distribution Manifold）などをそろえているが、最新世代のGPUを運用するためには事実上液冷システムが必須であり、あらかじめ組み合わせた形でシステム化する必要があることからラック単位で完成したシステムとして提供している形だ。佐野氏はNVIDIAの最新世代GPU「B200」を例として、B200を8基搭載するGPUサーバーを空冷にする場合と液冷にする場合とではどのぐらいの差が出るのかを紹介した。

最新世代のGPUサーバーの空冷と液冷の差。8GPUを運用するだけで充分という規模のユースケースであれば空冷が合理的だろうが、多数のGPUを集積したGPUクラスターを構築するなら液冷が必須となる

　B200を空冷で運用する場合にはヒートシンクのサイズが6U分にも達することからシステムとしては10Uサイズになる一方、液冷の場合は4Uで済むことから、スペース効率で2.5倍の差が生じると明かした。実際には液冷ではCDUを搭載する必要もあり、完全に2.5倍にはならないまでも実装密度に大きな差が生じることは間違いない。

　紹介された液冷システムではラック内を循環する冷媒はラック内で完結しており、CDUでデータセンター設備側から供給される水道水との間で熱交換を行う仕組みになっている。熱せられた水道水はデータセンター側の施設として設置されるクーリングタワーで空冷されるが、同社はこのクーリングタワーも自社製品として用意しており、既に国内でも設置例が出てきているという。

液冷システムの構成。ラック内で冷媒を循環させ、CDUの熱交換器でファシリティー側から供給される冷却水との間で熱交換を行い、ファシリティ側に設置されるクーリングタワーで冷却水を空冷する
※クリックすると拡大画像が見られます

　SupermicroのGPUサーバー「GB200 NVL72」では、NVIDIA B200（Blackwell）×4と、CPUとして「NVIDIA Grace CPU」（ARMベースのプロセッサー）×2を搭載したコンピュートノードを18台ラックに収容して「NVIDIA NVLink」（総帯域幅は1.8TB/s）で相互接続し、同社製の液冷システムで冷却を行っている。この密度での実装は空冷ではとても無理であり、液冷システムをあらかじめ組み込んだ形で、ラック単位で導入するのが合理的なのは間違いないだろう。

Supermicro GB200の詳細構成
※クリックすると拡大画像が見られます

　冷却能力をさらに高めるにはシステムを丸ごと冷媒に漬ける液浸という手法もあり、同社でも取り組んでいるが、佐野氏は「液浸ではシステムを油（冷媒液）につけ込むため、メンテナンスの際にはシステムを油から引き上げて付着した油を取り除くなど、手間が掛かる」と指摘し、現在主流となっているコールドプレート経由で冷媒を循環させるシステムの方が利便性が高いとの認識を示した。なお、同社ではラックに取り付けて運用する液冷リアドアなども用意しており、規模に応じてさまざまな冷却システムを選べるようにしている。

　データセンターの消費電力に関しては、一時期はエコロジーやサステナビリティーの観点から高効率化に注目が集まり、冷却のための消費電力量を極限まで引き下げるフリークーリングを採用した郊外型データセンターが建設されるなどしたが、最近の生成AIブームによって、多くの事業者が競い合うように大量のGPUを集めて運用する施設の建設を始めたことから、効率以前の問題としてまずGPUが消費する大量の電力をどう供給するかが直近の課題となってきた。

　同時に、消費される大電力がほぼそのまま熱として放出されることになるため、GPUの運用を目指すデータセンターでは冷却能力の大幅な引き上げが必須となる。これまでは空冷ベースの都市型データセンターも多数運用されてきたが、今後は設計段階から水冷／液冷を想定した新世代のデータセンターの建設が増えてくることになりそうだ。また、独自の液冷システムを組み込んだ形の高密度サーバーを提供できるSupermicroは、今後しばらくはアドバンテージを保つことになると予想される。