一貫性駆動型強化学習による言語間事実的リコール性能の向上

ニュース概要（出典記事の要点）

英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に…

※ 上記は出典記事の要約です。本サイト独自の分析・背景解説は下記をご覧ください。

解説

私たちが日常的に使っているチャットボットやAIアシスタントは、実は英語に大きく偏った学習をしているという問題があります。英語では正確に答えられるのに、日本語や中国語など他の言語で聞くと、同じ事実についても間違った答えを返してしまうことがあるということです。

この現象は「言語間の一貫性の欠如」と呼ばれています。例えば、「富士山の高さは？」と英語で聞けば「3776メートル」と正しく答えるAIが、同じ質問を日本語でされると見当違いな答えを出す、といった具合です。なぜこんなことが起きるのでしょう。

AIモデルの内部では、言語ごとに異なる「回路」が発火していると考えられています。英語で学習した知識が、別の言語に翻訳されるときに正しく伝わっていないわけです。これは、多くの言語で同じ情報をAIに学習させていないことが主な原因です。

今回発表された研究では、12言語にわたって10万件の事実を収集した「PolyFactという新しいデータセット」を作成し、複数の言語を同時に学習させる方法を試しました。ここで注目されるのは「グループ相対方針最適化（GRPO）」という比較的新しい学習手法が、従来の方法よりも効果的だったという発見です。

これは単に「より多くの言語データを足す」だけではダメで、「どのように学習させるか」という学習方法そのものが重要だということを示しています。GRPOを使うと、AIの内部の「言語特有の回路」が削減され、複数言語に共通した表現が増えるのです。想像してみると、各言語用の部屋を別々に作るのではなく、複数言語が共有できるホールを広げるような感じです。

この研究は、今後のAIが「多言語対応」という課題にどう向き合うかの方向性を示しています。グローバル化が進む中で、英語以外の言語でも同等の品質でAIが機能することの重要性は高まっています。また、オープンソースのモデルでこの研究を実施し、コードやデータセットも公開する予定とのことなので、他の研究者や企業がこの成果を活用しやすくなるでしょう。