ai2026/6/25 13:00:00

プロジェクト・オートワールド：ニューラル関係推論の自動ベンチマークに向けて

ニュース概要

関係構造に関する推論は、ニューラルモデルにとって依然として大きな課題であり、特に学習した知識を訓練時よりも難しい問題インスタンスに体系的に適用しなければならない場合に顕著です。この一般化能力の評価の難しさから、進歩は妨げられています。なぜなら、事前には、何がインスタンスを難しくしているのかはほとんど明らかではないからです。本研究では、大規模言語モデル（LLM）を使用してベンチマーク生成を自動化し、エンドツーエンドでますます挑戦的なインスタンスを生成することを学習することによって、この問題にどのように対処できるかを調査します。具体的には、Datalogルールによってパラメータ化されたワールドと、推論評価者としてのEdge Transformerが与えられた場合、LLM主導の進化的探索（FunSearchに基づく）と自律的なエージェント探索を使用して、困難な問題インスタンスを生成するサンプリング関数を発見します。また、このデータを使用してEdge Transformerを改善できることも示しており、さらなるデータ摂動に対してうまく一般化します。

解説

AI（人工知能）の世界では、コンピューターが人間のように物事を「理解」し、そこから新しいことを推測する能力が常に求められています。特に、物事の「関係性」を捉えて、それに基づいて推論する力は、AIにとってまだまだ難しい課題の一つです。例えば、ある情報が与えられたときに、その情報から隠されたルールを見つけ出したり、未知の状況に知識を応用したりする能力ですね。

この「関係性推論」の進歩が遅れている理由の一つに、AIがどれだけ賢くなったかを測る「ものさし」作りが難しいことが挙げられます。どういう問題がAIにとって「難しい」のか、事前に正確に予測するのが難しいため、AIの能力を公平に評価し、さらに伸ばしていくための新しい問題（テストケース）をどう作れば良いのか、研究者たちを悩ませてきました。

そんな中、この研究では、この「ものさし」作りをAI自身に手伝ってもらおうという、面白いアプローチを提案しています。具体的には、AIの中でも特に文章を理解したり生成したりするのが得意な「大規模言語モデル（LLM）」という技術を使います。このLLMに、どんどん難しくなっていく問題（テストケース）を自動で作らせることで、AIの関係性推論能力をより正確に評価し、向上させようというのです。

研究チームは、LLMに「Datalog」という、関係性を表現するのに適したルールに基づいた仮想世界（ワールド）を与えました。そして、AIの推論能力を評価する役割として「Edge Transformer」という別のAIモデルを使います。この組み合わせで、LLMが「FunSearch」という、AIが自ら新しいプログラム（この場合は、難しい問題を作るための「サンプリング関数」）を発見していく手法や、自律的に探索するエージェントの力を借りて、AIにとって手ごわい問題インスタンスを自動生成することに成功しました。

さらに興味深いのは、このようにしてAIが作った「難しい問題」のデータを使って、評価役のEdge Transformer自身を鍛え直すこともできるという点です。これにより、Edge Transformerは、たとえ少しデータが変化したり、予期しない形になったりしても、うまく対応できる「一般化能力」を高めることができたとのこと。これは、AIが現実世界の複雑な状況にもっと柔軟に対応できるようになるための、大きな一歩と言えるでしょう。

今後の予測

この研究が示すように、AI自身が学習のための「難しい問題」を生成する能力を持つことは、AIの進化を加速させる可能性を秘めています。今後、このような「自動ベンチマーク生成」の技術は、さらに洗練されていくと考えられます。例えば、LLMだけでなく、より多様なAIモデルが、それぞれの得意分野に合わせた問題生成に活用されるようになるかもしれません。これにより、AIの特定の能力をピンポイントで鍛えたり、逆に弱点を発見したりすることが容易になり、AI開発のスピードが格段に上がる可能性があります。

一方で、AIが生成する問題が高度化しすぎると、人間がその問題の意図や難易度を理解するのが難しくなるという課題も出てくるかもしれません。そうなると、AIの評価や改善のプロセスが、一部の専門家だけしか関われない、ブラックボックス化してしまうリスクも考えられます。そのため、AIが生成したベンチマークを人間がどう解釈し、どう活用していくか、そのための新しいインターフェースや手法の開発も同時に進んでいくことが予想されます。また、AIが生成する問題の「質」をどう担保するか、人間が介入するべきラインはどこか、といった倫理的な側面からの議論も深まるでしょう。