VRAM 12GBでQwen 35Bを動かす — エキスパートをGPUに載せないほど速くなった話

ニュース概要

3か月前、私は同じRTX 4070でこんな検証記事を書きました。結論は「35BのMoEモデルは、待てるなら動く」。測ったのは10.6 tok/s。動くには動くが、チャットで使うには指が止まる速度です。先週、同じGPU・同じモデルで測り直したら34.6 tok/sが出ました...

解説

皆さんは「生成AI」と聞くと、GoogleやOpenAIのような巨大企業が作る大規模なAIを想像するかもしれません。しかし、最近では、個人のパソコンでも動かせるような、少し小さめのAIモデルもたくさん登場しています。今回注目するのは、そうした「自宅で動かせるAI」の進化に関する驚きのニュースです。

記事の筆者の方は、グラフィックボード（GPU）という、AIの計算に欠かせない部品を使って、自分でAIモデルを動かす実験をされています。3ヶ月前、彼は「RTX 4070」という、ゲーミングPCによく使われるGPUで「Qwen 35B」というAIモデルを動かしてみたそうです。その時の感想は、「動くことは動くけど、ちょっと遅いかな」というものでした。具体的には、1秒間に10.6個の単語（トークン）を生成する速さでした。これは、チャットでAIと会話するには、少し待たされる感覚があったことでしょう。

ところが、たった3ヶ月後に同じGPU、同じAIモデルで再挑戦したところ、なんとその速度が3倍以上に向上し、1秒間に34.6トークンも生成できるようになったというのです。これは、まるで昔のインターネットがダイヤルアップ接続だった頃から、光ファイバーに変わったくらいの衝撃的な変化と言えるかもしれません。3ヶ月前には「待てるなら使える」レベルだったものが、今や「快適に使える」レベルになったわけです。

なぜこれほど劇的に速くなったのでしょうか？その秘密は、AIモデルの「賢さ」を保ちつつ、GPUに載せるデータの量を減らす技術が進化したことにあります。AIモデルは、たくさんの「エキスパート」と呼ばれる小さなAIの塊でできています。以前は、これらのエキスパートをすべてGPUに載せて計算していましたが、新しい技術では、必要なエキスパートだけを賢く選んでGPUに載せることで、VRAMというGPUの記憶領域の負担を減らし、処理速度を大幅に向上させることができたのです。これは、まるで大きな図書館の本を全て机に広げるのではなく、必要な本だけをサッと取り出して読むようなイメージです。AIを動かすためのソフトウェア（フレームワーク）の進化も大きな要因でしょう。

この技術の進歩は、私たち一般のユーザーにとって非常に大きな意味を持ちます。これまで高性能なAIは、専門のデータセンターや非常に高価なGPUでしか動かせませんでしたが、今回の進化によって、比較的手に入りやすいGPUでも、かなり実用的な速度で動かせるようになってきました。これは、AIがより身近になり、様々な個人開発や、企業の小規模なプロジェクトでも活用されやすくなる未来を示唆しています。例えば、自分のパソコンで動くAIアシスタントや、プライベートな情報を外部に送らずに処理できるAIツールなどが、より現実的になるかもしれません。

今後の予測

この技術の進化は、今後のAI利用にいくつかの大きな変化をもたらすでしょう。

**シナリオ1：個人開発とプライバシー重視AIの加速** 手頃なGPUで高性能AIが動くことで、個人開発者がAIを活用した独自のアプリケーションを作りやすくなります。例えば、インターネットに接続せず、自分のPCだけで動作するパーソナルAIアシスタントや、機密情報を外部サーバーに送らずに処理できるAIツールなどが、さらに普及する可能性があります。これにより、プライバシー保護の観点からも、AIの利用が広がるでしょう。

**シナリオ2：企業のAI導入コスト削減** 企業がAIを導入する際、これまで大規模なクラウドサービスや高価なGPUサーバーが必要でしたが、今回の進化により、より少ないリソースでAIを動かせるようになります。特に、部門ごとの小規模なAI活用や、エッジデバイス（現場に近い場所で動く機器）でのAI処理が加速し、AI導入のハードルが下がることが期待されます。これにより、AIのビジネス活用がさらに多様化するでしょう。

**シナリオ3：AIモデルのさらなる最適化競争** AIモデル自体の性能向上はもちろんのこと、GPUのVRAMを効率的に使うためのソフトウェアやアルゴリズムの最適化競争がさらに激化すると考えられます。これにより、将来的には、より少ないVRAMで、より大規模なAIモデルを、より高速に動かせるようになる可能性も十分にあります。AIの「軽さ」と「速さ」が、これからの技術開発の重要な指標となるでしょう。