News in Focus
テクノロジー2026/6/15 10:27:14
VRAM 12GBでQwen 35Bを動かす — エキスパートをGPUに載せないほど速くなった話

画像: Pixabay

VRAM 12GBでQwen 35Bを動かす — エキスパートをGPUに載せないほど速くなった話

出典: Qiita 人気記事 (原典を開く)

ニュース概要

3か月前、私は同じRTX 4070でこんな検証記事を書きました。結論は「35BのMoEモデルは、待てるなら動く」。測ったのは10.6 tok/s。動くには動くが、チャットで使うには指が止まる速度です。 先週、同じGPU・同じモデルで測り直したら34.6 tok/sが出ました...

解説

皆さんは「生成AI」と聞くと、GoogleやOpenAIのような巨大企業が作る大規模なAIを想像するかもしれません。しかし、最近では、個人のパソコンでも動かせるような、少し小さめのAIモデルもたくさん登場しています。今回注目するのは、そうした「自宅で動かせるAI」の進化に関する驚きのニュースです。

記事の筆者の方は、グラフィックボード(GPU)という、AIの計算に欠かせない部品を使って、自分でAIモデルを動かす実験をされています。3ヶ月前、彼は「RTX 4070」という、ゲーミングPCによく使われるGPUで「Qwen 35B」というAIモデルを動かしてみたそうです。その時の感想は、「動くことは動くけど、ちょっと遅いかな」というものでした。具体的には、1秒間に10.6個の単語(トークン)を生成する速さでした。これは、チャットでAIと会話するには、少し待たされる感覚があったことでしょう。

ところが、たった3ヶ月後に同じGPU、同じAIモデルで再挑戦したところ、なんとその速度が3倍以上に向上し、1秒間に34.6トークンも生成できるようになったというのです。これは、まるで昔のインターネットがダイヤルアップ接続だった頃から、光ファイバーに変わったくらいの衝撃的な変化と言えるかもしれません。3ヶ月前には「待てるなら使える」レベルだったものが、今や「快適に使える」レベルになったわけです。

なぜこれほど劇的に速くなったのでしょうか?その秘密は、AIモデルの「賢さ」を保ちつつ、GPUに載せるデータの量を減らす技術が進化したことにあります。AIモデルは、たくさんの「エキスパート」と呼ばれる小さなAIの塊でできています。以前は、これらのエキスパートをすべてGPUに載せて計算していましたが、新しい技術では、必要なエキスパートだけを賢く選んでGPUに載せることで、VRAMというGPUの記憶領域の負担を減らし、処理速度を大幅に向上させることができたのです。これは、まるで大きな図書館の本を全て机に広げるのではなく、必要な本だけをサッと取り出して読むようなイメージです。AIを動かすためのソフトウェア(フレームワーク)の進化も大きな要因でしょう。

この技術の進歩は、私たち一般のユーザーにとって非常に大きな意味を持ちます。これまで高性能なAIは、専門のデータセンターや非常に高価なGPUでしか動かせませんでしたが、今回の進化によって、比較的手に入りやすいGPUでも、かなり実用的な速度で動かせるようになってきました。これは、AIがより身近になり、様々な個人開発や、企業の小規模なプロジェクトでも活用されやすくなる未来を示唆しています。例えば、自分のパソコンで動くAIアシスタントや、プライベートな情報を外部に送らずに処理できるAIツールなどが、より現実的になるかもしれません。

関連データ

初期のAI生成速度(RTX 4070)
10.6トークン/秒
出典:Qiita 人気記事
3ヶ月後のAI生成速度(RTX 4070)
34.6トークン/秒
出典:Qiita 人気記事
速度向上率
約3.26倍
出典:Qiita 人気記事
使用GPU
RTX 4070 (VRAM 12GB)
出典:Qiita 人気記事
使用AIモデル
Qwen 35B (MoEモデル)
出典:Qiita 人気記事

今後の予測

この技術の進化は、今後のAI利用にいくつかの大きな変化をもたらすでしょう。

**シナリオ1:個人開発とプライバシー重視AIの加速** 手頃なGPUで高性能AIが動くことで、個人開発者がAIを活用した独自のアプリケーションを作りやすくなります。例えば、インターネットに接続せず、自分のPCだけで動作するパーソナルAIアシスタントや、機密情報を外部サーバーに送らずに処理できるAIツールなどが、さらに普及する可能性があります。これにより、プライバシー保護の観点からも、AIの利用が広がるでしょう。

**シナリオ2:企業のAI導入コスト削減** 企業がAIを導入する際、これまで大規模なクラウドサービスや高価なGPUサーバーが必要でしたが、今回の進化により、より少ないリソースでAIを動かせるようになります。特に、部門ごとの小規模なAI活用や、エッジデバイス(現場に近い場所で動く機器)でのAI処理が加速し、AI導入のハードルが下がることが期待されます。これにより、AIのビジネス活用がさらに多様化するでしょう。

**シナリオ3:AIモデルのさらなる最適化競争** AIモデル自体の性能向上はもちろんのこと、GPUのVRAMを効率的に使うためのソフトウェアやアルゴリズムの最適化競争がさらに激化すると考えられます。これにより、将来的には、より少ないVRAMで、より大規模なAIモデルを、より高速に動かせるようになる可能性も十分にあります。AIの「軽さ」と「速さ」が、これからの技術開発の重要な指標となるでしょう。

ニュースタイムライン

  1. 2026年6月3日

    RTX 4080でローカルLLM 7モデルを実測したら「16GB VRAMの壁」が見えた

    Zenn

  2. 2026年6月5日

    [ITmedia Mobile] 【ワークマン】1900円の「ジョイントトートバッグエキスパートエディション」 手持ち&肩掛け対応の2WAY仕様

    ITmedia 全カテゴリ

  3. 2026年6月5日

    【ワークマン】1900円の「ジョイントトートバッグエキスパートエディション」 手持ち&肩掛け対応の2WAY仕様(ITmedia Mobile)

    Yahoo!ニュース IT

  4. 2026年6月5日

    オーディオ評論家・小原由夫氏監修「オーディオのプロが選ぶ『音』で聴く名盤280」。エキスパート20名による“音質至上主義”ディスクガイド(PHILE WEB)

    Yahoo!ニュース IT

  5. 2026年6月5日

    「調べますね」— AI当直アナリスト ケイティ:見た目ゆるふわ中身は超エキスパートSOC(Sysdig × Claude × OpenAI)

    Qiita 人気記事

  6. 2026年6月9日

    ollama + qwenで、PDFを読み取る環境を構築

    Zenn

  7. 2026年6月16日

    文春「高市陣営のAI中傷動画」に決定的な矛盾。小泉氏攻撃に使われた写真は選挙後に撮影されたもの(篠原修司) - エキスパート - Yahoo!ニュース

    はてなブックマーク IT

参考引用

35BのMoEモデルは、待てるなら動く。

Qiita 人気記事

測ったのは10.6 tok/s。

Qiita 人気記事

同じGPU・同じモデルで測り直したら34.6 tok/sが出ました。

Qiita 人気記事
🤖

記事AI質問チャット

PREMIUM

この記事についてAIが質問に答えます。背景・要約・影響まで深堀り。

ログインして利用

🛡️ 読者ファクトチェック0

読者が投稿し、管理者承認後に表示される事実確認情報

まだ承認済みのファクトチェックはありません。

ファクトチェックを投稿するには ログイン が必要です

関連記事

こんな記事も読まれています

コメント (0)

コメント投稿にはログインが必要です。

まだコメントはありません。最初のコメントを書いてみましょう。

この記事について疑問がありますか?

事実誤認や不適切な内容について通報できます (要ログイン)。

異議申し立て・通報