ai2026/6/26 13:00:00

Know2Guess: 大規模言語モデルの知識境界評価のための汚染認識型マルチゾーンベンチマーク

ニュース概要

大規模言語モデルの信頼性の高い評価では、サポートされた回答とサポートされていない推測を、データ汚染、プロンプトの特異性、または一般的な拒否動作と混同することなく分離する必要があります。本稿では、凍結されたビルドタイムラベルの下で、回答可能な知識から拒否が期待される未知への移行を測定するための、汚染認識型マルチゾーンベンチマークを提案します。このベンチマークには、5つのドメインにわたる1,200項目、明確な拒否期待、汚染リスクメタデータ、および公式の厳密パーサーと正規化されたロバストネスパーサーによるデュアルパーシングが含まれます。FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructモデルを、ロックされた回答・拒否プロンプト、回答のみの制御、およびプロンプトテンプレートバリアントの下で評価します。このベンチマークは、一般的な非回答行動では解決されません。FLANベースラインは生産的な拒否において依然として弱く、より強力な指示チューニングモデルは、回答から拒否への選択的ですが不完全な移行を明らかにします。

解説

AI（人工知能）が私たちの質問に答えてくれるのは、まるで魔法のようですよね。でも、AIが本当に「知っている」ことと、「知らないけど、それっぽく答えている」ことを見分けるのは、実はとっても難しいんです。AIの賢さを正しく測るためには、この「知っている」と「知らない」の境界線を、もっと正確に評価する必要がある、というのが今回の研究のポイントなんです。

AI、特にChatGPTのような「大規模言語モデル（LLM）」は、インターネット上の膨大なテキストデータで学習しています。そのため、学習に使われたデータに含まれる情報については、しっかり答えることができます。しかし、学習データには含まれていない、新しい情報や、そもそも答えられないような質問をされた場合、どう対応するかが問題になります。AIが「知らない」と正直に答えてくれれば良いのですが、学習データから推測して、あたかも知っているかのように間違った答えを返してしまうこともあるのです。これは、AIの信頼性に関わる大きな問題と言えます。

この問題を解決するために、研究者たちは「Know2Guess（ノウ・トゥー・ゲス）」という新しい評価方法を開発しました。これは、AIが「知っている」範囲から「知らない」範囲へと、どのように移行していくかを測るためのものです。具体的には、AIが答えられるはずの質問と、答えられないはずの質問をセットにして、AIの反応をチェックします。さらに、AIが間違った情報で「汚染」されていないか、質問の仕方（プロンプト）が極端に特殊でないか、といった点も考慮に入れています。まるで、AIに「これは知ってる？」「これはどう？」と、色々なレベルの質問を投げかけて、その反応をじっくり観察するようなイメージです。

このKnow2Guessベンチマークでは、5つの異なる分野の質問1200項目を用意し、AIが「答えてはいけない」と判断すべき質問には、明確に「拒否」という反応を期待しています。さらに、評価の正確さを高めるために、2種類の厳密なチェック方法（パーサー）を用いて、AIの回答を分析しています。

実際に、FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructといった、いくつかの有名なLLMでこのベンチマークを試したところ、興味深い結果が出ました。単純に「答えられない」と拒否するだけでは、AIの能力を正しく測れないことが分かったのです。特に、指示に従って賢く振る舞うように調整されたモデル（指示チューニングモデル）は、回答から拒否への切り替えが、ある程度はできるものの、まだ完全ではないことが明らかになりました。これは、AIが「知らない」ことをうまく隠したり、不適切な推測をしてしまったりする可能性があることを示唆しています。

AIの進化は目覚ましいですが、その「賢さ」を正しく評価し、信頼できるAIを開発していくためには、今回のような、より詳細で、かつ汚染を考慮した評価方法が不可欠になってくるでしょう。私たちがAIをより深く理解し、賢く付き合っていくための、重要な一歩と言えそうです。

今後の予測

今回のKnow2Guessベンチマークは、AIが「知らない」ことをどのように扱うか、という点に焦点を当てています。今後、AI開発においては、単に知識量を増やすだけでなく、未知の情報に対して「知らない」と正直に伝えたり、誤った推測を避けたりする能力を、より重視するようになるでしょう。

一つ目のシナリオとして、AIは「不確実性」を表現する能力をさらに向上させる可能性があります。現在の「拒否」という二者択一的な応答から、より細かく「〜かもしれない」「〜という情報もあるが、確証はない」といった、あいまいさを表現する応答ができるようになるかもしれません。これにより、ユーザーはAIからの情報をより慎重に受け取ることができるようになります。

二つ目のシナリオとして、AIの「学習データ汚染」を防ぐための技術がさらに進化するでしょう。学習データに意図せず含まれてしまった誤情報や偏見が、AIの回答に悪影響を与えることを防ぐための、より高度なフィルタリングや、学習プロセス自体の改善が進むと考えられます。これにより、AIの回答の信頼性はさらに高まるはずです。

一方で、AIが「知らない」ことを巧妙に隠し、あたかも知っているかのように振る舞う能力も同時に進化する可能性も否定できません。そうなると、今回のような評価ベンチマークの重要性はますます高まり、研究者たちは常に新しい評価手法を開発し続ける必要に迫られるでしょう。AIと人間の知的な駆け引きは、今後も続いていくと考えられます。