ai2026/6/23 13:00:00

トレーニング後のレシピ、モデルファミリー以上のものがマルチエージェントLLMの会話行動を形成する

ニュース概要

マルチLLMシステムは、複数の言語モデルを使用して、議論したり、互いの出力を評価したり、エージェントとして協調したりします。これらのシステムの価値は、同じ入力が与えられたときに、モデルが測定可能に異なる会話行動を生み出すかどうかに依存します。以前のオフライン研究では、行動の多様性のために、ファミリーごとに1つのモデルを抽出することが推奨されてきました。なぜなら、LLMは孤立して互いを評価する際に、自身のファミリーからの出力を好む傾向があるからです。同じファミリーラベルが、実際の展開システムが使用する設定であるインタラクティブなマルチLLMシステムでの行動を予測するかどうかは、テストされていませんでした。私たちは、94万チェーン、11チェックポイントのコーパスと、160万チェーンの同一ベースのLlamaファクトリアルを用いてこれを研究しました。検証済みのヘッドラインメトリックであるヘッジングにおいて、推論蒸留されたLlamaチェックポイントは、どの同一ベースのパートナーに応答するかによって18%シフトし、これは制御されたサブセットにおけるファミリー間のヘッジングギャップよりも大きいです。

解説

最近、AIの世界では、複数のAI（言語モデル、LLMと呼ばれます）がチームを組んで、まるで人間のように話し合ったり、お互いの意見を評価したり、協力して何かを成し遂げたりする「マルチLLMシステム」が注目されています。このシステムがどれだけすごいかは、同じ質問をしても、AIたちがどれだけ違った、面白い会話をしてくれるかにかかっています。これまでの研究では、「同じ家族（ファミリー）のAI同士だと、お互いを評価するときに、自分の仲間をひいきしがちだから、色々な会話を引き出すには、それぞれの家族から1つずつAIを選ぶのが良い」と考えられてきました。これは、AIが一人で他のAIの出力を評価するような、いわば「オフライン」での実験に基づいた考え方です。しかし、実際のAIシステムが使われる場面、つまり、AIたちがリアルタイムで会話をしながら進める「マルチLLMシステム」では、この「同じ家族」という考え方がどれだけ通用するのかは、これまでちゃんと試されていませんでした。そこで、今回の研究では、この点を詳しく調べてみました。具体的には、94万回の会話のやり取りと11種類のAIのバージョン（チェックポイント）を使い、さらに、同じ基本モデルから作られたAI（ファクトリアル）160万回分の会話データも分析しました。その結果、驚くべきことが分かりました。AIが「ヘッジング（断定を避ける言い方）」をする度合いを調べたところ、あるAI（推論蒸留されたLlamaチェックポイント）が、どのAIと会話するかによって、そのヘッジングの仕方が18%も変わることが分かったのです。これは、これまで「家族が違うとヘッジングの仕方が変わる」と考えられていたギャップよりも、さらに大きな変化でした。つまり、AIが会話する相手によって、その振る舞いが大きく変わる、ということなのです。これは、「同じ家族だから、似たような振る舞いをする」という単純な考え方だけでは捉えきれない、より複雑なAIの会話のダイナミクスがあることを示唆しています。

今後の予測

今回の研究結果は、マルチLLMシステムの設計において、単にAIの「ファミリー」だけでグループ分けするのではなく、AI同士の「相互作用」や「会話の履歴」が、その振る舞いを決定する上で非常に重要であることを示唆しています。将来的には、AIがより人間らしい、あるいは目的に沿った会話をするためには、AIの「個性」や「対話スタイル」を、ファミリーという枠を超えて、より柔軟に制御する必要が出てくるでしょう。例えば、特定のタスクにおいては、あえて異なるファミリーのAIを組み合わせることで、より多様で創造的な会話を生み出せる可能性があります。一方で、AI同士の相性が悪く、意図しない、あるいは不適切な会話が発生するリスクも考えられます。そのため、AIの組み合わせ方や、会話の進め方を学習させるための新しい技術開発が求められるでしょう。AIが単独で賢くなるだけでなく、複数のAIがどのように「協調」し、あるいは「影響し合う」のか、という点に焦点が移っていくと考えられます。これにより、AIアシスタントや、より高度な自動化システムなど、私たちの生活の様々な場面で、AIがより自然で効果的に活用される道が開かれるかもしれません。