GPU利用上の注意点など

blueqat(株)記事転載

基本的に現在のコンピュータを運用しようとすると下記のパーツが必要です。

・マザーボード(各種のパーツを統合して搭載します)

・CPU(メインの演算装置です)

・メモリ(計算作業用の一時保管場所です)

・記憶媒体(データを保存しておく領域です)

・電源(外部からの電源を取り込んで配分します)

・GPU(計算用の拡張用のスロットを利用した装置)

・水冷や空冷システム(CPUやGPU、最近はその他の装置も大きな熱を発します)

通常私たちはこれらの装置を購入する際に、自作する場合でない限りは完成品として提供されます。ノートPCのようなものは基盤についていて変更ができないものも多いですが、データセンター向けや自宅向けのデスクトップではパーツを取り替えることで性能を変更できます。

CPU

中央のメインの演算用のチップです。Intel製やAMD製があり、コンシューマ向けの一般向けのCPUとサーバーやワークステーションなどのプロ向けのCPUがあります。用途や計算速度に合わせて選びます。

マザーボード

さまざまなパーツを搭載するためのボードですが、搭載するCPUの種類や性能によって値段や種類が異なります。CPUが決まったらそれに対応するマザーボードを選びます。

メモリ

作業用の一時保管場所で、計算速度や作業の効率に影響します。多いのが理想です。させるスロットの数に制限があったり、メモリにも新しい古いの種類があるので、対応したものを選びます。

記憶媒体

HDDやSSDなどさまざまな種類があります。最近はマザーボードに直接つけるM.2 NVMeなどもあります。メンテナンス製や容量、価格などで決めます。OSなどのソフトウェアをインストールする記憶領域なので、データ保存用やインストール用も分けたり、万が一のためにミラーリングでコピーを常に持って置いたりとたくさんの手法があります。

電源

CPUやGPUなどの演算領域は多くの電力を消費します。電源は常に動きっぱなしの状態にあるので、信頼性の高いものや容量を計算したい組み合わせによって選びます。

GPU

GPUは現在、PCIeというマザーボードに搭載された拡張性のあるスロットに搭載します。PCIスロットはその他いろいろな拡張性のあるボードを指すことができます。最近のGPUはサイズが大きいので、ケースやスロットの種類、空きスロットの数などを見てGPUの性能を満たすものが搭載できるかを考えます。GPUにはコンシューマ向けやサーバー・データセンター向けのものもあります。最近は科学計算用途での専用マシンもあります。V100,A100,H100以外は比較的搭載しやすいですが、左のような計算専用のGPUにはちょっと注意が必要です。

まず、計算専用のGPUには外部出力端子がありません。ソフトウェアのインストールやマシンの起動時には画面出力が必要ですが、こうした科学計算用のGPUにはその様な端子がありませんので、別途準備する必要があります。CPUにグラフィックの外部出力が搭載されていることもありますが、できれば他のPCIスロットにIPMIという管理用のボードや安価なGPUを指して利用するのが望ましいです。マザーボードの設定では、内部出力・外部出力の優先設定があり、煩雑になることがあります。

業者から完成品のGPUシステムを導入する際には、PCIスロットではなく、基盤に組み込まれたSXMという規格もあります。PCIeでは自由にGPUを取り出したりできますが、SXMは組み込まれているので速度が速いぶん、拡張性はありません。

水冷・空冷システム

上記のような高度なCPUやGPUシステムを利用する際には水冷と空冷という冷やす形式をきちんと理解して運用する必要があります。これまでは空冷システムがメインでしたが、最近では水冷も出てきています。

空冷は基本的には前面から空気を取り込み、背面から排気します。CPUにはCPUクーラーと呼ばれる熱をCPUから吸い出して金属の薄い板を重ねたヒートシンクと呼ばれるものと、そのヒートシンクの熱を奪って排出するためのファンが一体となったようなものがあります。空冷では、基本的に前面から送り込んだ冷たい風をCPUやGPUの熱を取り込んで背面から吐き出すように風の通り道を作っておきます。GPUでは、一般的にはファンがついていて、シロッコファンと呼ばれる細長いフィンがついて風を送る出すものか、プロペラファンといって扇風機のように風を送るものがあります。シロッコファンの場合には、GPUの方向に沿って風が外に排出されます。その際にはGPUの背面に穴が空いていてそこから熱い風が出ます。プロペラファンの場合には、GPUと垂直に風が送り出されますので、ケースがわでその熱をとって背面に排気するためのファンが別途必要になります。一方水冷になるとまた状況が変わります。水冷はポンプ、ホース、ラジエーターから構成されています。簡易水冷と本格水冷があります。簡易水冷では一体型となった水冷システムがあり、それをCPUやGPUとケースに装着すれば完了です。ただ、空冷ではエアフローと呼ばれる風の通り道が前から後ろに通るのが大事でした。一方水冷では異なります。水冷は、CPUの熱はポンプによってホースを通ってラジエーターと呼ばれる大きなフィンの塊にいきます。そのラジエーターは効率的に熱を外部に逃すためにプロペラファンがついています。ホースの長さとポンプの性能によりますが、一般的にはケース内のエアフローは空冷ほどは重視されず、ラジエーターの熱を外部に逃すことが最優先されます。CPUだけでなく、GPUも水冷にする場合、ラジエーターの数が増えますので、どこでそれらの熱を逃すかが重要にはなってきます。

A100,H100などの高性能なGPUを冷却する際にはコツが必要です。RTX6000adaの様なワークステーション向けのGPUにはシロッコファンなどが搭載されているので、エアフローを重視すれば冷却できますが、A100やH100のPCIには冷却用のファンがついてないため、ケースがわで用意をする必要があります。空冷の場合には、エアフローはGPUと並行になるようにフィンを通じて片側に作る必要があり、大量のヒートシンクの熱を強力な風で外部に逃す必要があります。必ずしもPCIeのスロットにマザーボード直接接続でなくても、スペースやエアフローの影響でPCIを延長して横向きに置いたりもあります。一般的にはPCケースはこのようなGPU冷却用のエアフローを確保できる様にはなっていないため、サーバーベアボーンや自作で対応する必要があります。

A100やH100の水冷ブロックをつける際には、ウォーターブロックと言ってヒートシンクの代わりに水冷用の冷媒に熱を逃すパーツを接続し冷やす必要があります。製品としてついている空冷用のヒートシンクを外して自分でウォーターブロックをつける必要があるため、結露などの問題含めて保証対象外になる可能性があります(代理店などにご確認ください)。

もし高度な科学計算やAI計算、量子計算をGPUで行いたい場合、簡単なのはRTX6000adaの様な導入しやすい GPUを利用することです。事情により、A100,H100を利用する際には注意が必要です。

ビネット&クラリティさんにA100,H100向けの冷却ファンを作ってもらいました。

https://vigne-cla.com/7-50/ 

また、単に冷却のファンを搭載すればいいというわけではありません。内部ではnvidia-smiを利用してGPUの温度をモニタリングできます。GPUの温度はやはり外部に排気される熱が重要で、あまり温度が上がらないようにケアをする必要があります。ファンの電源ピンがペリフェラル電源の場合には最大出力で排気されると思いますが、4pinをマザーボードからとる際にはマザーボード側でファンの速度が調整されています。その際に、 GPUの温度をマザーボードが直接見てファンの速度を調整しているわけではないので、十分な風量が取れないことがあります。その際にはマザボの設定で4pin電源からファンの出力を固定にしてあげたほうが良いでしょう。ファンもrpmといって回転数が高いほうが風量がたくさん取れますので、風量が取れるものを選んで十分な冷却をする必要があります。

<廉価版構成、安定稼働中>