転載❖METAの大規模言語モデルのllama2 70Bモデルを手元のGPU(8GPU)で動かしてみた

作者:Yuichiro Minato

7Bや13Bのモデルはよく実装の報告がありますが、70Bのモデルに関してはなかなかマシンが手に入らないと言うことで、実行のレポートは少ないですが、今回弊社は量子コンピューティング向けに持っているNVIDIA GPUに8GPU搭載されたものがありますので、それを利用しました。

インストール手順としては特に複雑なものはありませんでしたが、搭載されていたドライバーが少し古かったので入れ直し、cuda入れ直し、最後に実行しましたが、なかなか動きません。調べてみると見たことないエラーがありまして、そちらは8GPUを連動させるためのNV-linkを制御するためのライブラリがなかったようです。 そちらをインストールしたら無事動きました。

特に量子化や工夫なしにそのまま70Bのモデルが動いてますので報告しました。実際にプロンプトを入れて動かしてみたいと思います。

what is quantum computer?

>

A quantum computer is a computer that makes direct use of quantum-mechanical phenomena, such as superposition and entanglement, to perform operations on data. Quantum computers are different from binary digital electronic computers based on transistors. Whereas common digital computing requires that the data be encoded into binary

==================================

量子コンピュータとは何ですか?

>

Quantum computing is the area of study focused on the development of computer technology based on the principles of quantum theory. The quantum bit, or qubit, is the basic unit of quantum information. Qubits can exist in a state of superposition, which means that they can represent both 0 and 1

なんか日本語で問いかけてもやはり英語できますので、日本語で答えられるかちょっともう一回試してみました。

結果は、、、ダメですね。

量子コンピュータとは何ですか?日本語で答えてください

>

Quantum computers are the next generation of computers that use quantum mechanics to solve problems. They are expected to be much more powerful than traditional computers, as they can process information in a completely different way.

Quantum computers use quantum bits, or qubits, to store and process information. Qubits can

英語でした。そのうちもちょい調べてみます。

実行中に見たことないアラートが。

*****************************************

Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed.

*****************************************

ということなので、こちらは最初にデフォルトで1になっているスレッドを指定するようです。幾つに指定すればいいのかわからないですが、試してみました。実行は同じプロンプトで、実行の前にOMP_NUM_THREADS = で指定します。

OMP_NUM_THREADS = 1

Loaded in 76.69 second

OMP_NUM_THREADS = 2

Loaded in 111.08 seconds

OMP_NUM_THREADS = 4

Loaded in 73.54 seconds

正直挙動は不明でした。