MPS手法 軽量・高速・低コストLLM AI開発GPUキット 計算パラメータ9割削減計算精度9割以上維持

・開発元:blueqat株式会社

古典ニューラルネットワーク+量子モデルで実現する深層学習の一部を量子計算に置き換えるアルゴリズムMPS

https://blueqat.com/blueqat_official_news_ja/e59e6a84-7a5e-4fb9-89be-e59c3eac5ddf

・応用技術

MPSに代表されるテンソルネットワークはこの指数的な増大を (必要に応じて情報を落して近似し) 多項式レベルに抑えてうまく量子性を取り込んだ計算を古典コンピュータ上で実行する手法。しかもGPU上での並列計算にも適している。量子状態を表現するMPSの考え方に量子計算だけでなく従来のニューラルネットワークへの応用が存在する。ニューラルネットワーク内の全結合層に適用することでパラメータ圧縮 (枝刈り) を実現できるということが知られている。

データ圧縮イメージ図:オレンジ:圧縮後bit数 グレー:圧縮前bit数

・利用マシン

現在のCPU GPU FPGA ASICなどの既存のコンピューター上での計算を行うことができる。

・実施手順

- MPS への展開

MPSの量子もつれを利用して、量子もつれ量を小さくする、且つもつれ量を絞る、結果もつれを軽くすることができる。

- 全結合層の MPS を用いた TT-層への変換と低ランク近似

全結合層は一般には巨大な行列を含みますので、これを MPS でテンソルに変換し。不要な情報を落とします (低ランク近似)。

分類器の中に巨大な行列が 3 ヶ所あるので、これらの「結合次元」と呼ばれる部分の数値 (行列のサイズ) を小さくすることでモデルを圧縮します。

ベンチマーク:圧縮前はParams size (MB): 537.07であったモデルのサイズが、

       Params size (MB): 59.13へと 90% 近くサイズが圧縮されます。

- TT-層の効果の検証

MPS への変換による現在の状況を確認します。かなり強く圧縮しているので、精度は 85% 程度へと落ちているはずです。

 - ファインチューニングの実行と精度の回復

ファインチューニングを実行し、下がってしまった精度の回復を試行します。今回のデータセットは比較的簡単なものであるため、ファインチューニングによって、モデルサイズを大幅に削減した状態でも 99% 以上への精度回復が見込めます。

・効果

計算パラメータ9割削減する一方、計算精度9割以上維持でき、計算量削減をもたらすGPU導入コストの低減、計算リソースの有効活用を実現する。

・提供方法:

オンプレミス or クラウド(首都圏 DC TY○○からサービス提供中)

Cloud 量子コンピューティングシミュレータ構成: NVLINK V100x8, H100, A6000ada(GPU随時増強中)

blueqatクラウド ライセンスキー付与

例:Local PC ⇒ Jupyter Notebookコンテナ(DC)⇒ SSHポートフォワード ⇒ インスタンス(MPS)

オンプレミス:個別構築

・ユーザ事例(順不同)

博報堂DYホールディングス様/ 旭化成様/ TOPPANホールディングス様/KOSE様/官公庁/大学・研究機関

※MPS手法技術論文、報道(発表順)

[2401.14109] CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks (arxiv.org)

量子コンピュータより高速で正確な演算が可能な古典コンピュータ用アルゴリズム。ニューヨーク大 | PC Watch (nordot.app)

※ 無料お試しアカウントご希望の方、[email protected]