ai2026/6/26 13:00:00

ベンチマーク飽和後の世界：CORE-Benchのケーススタディ

ニュース概要

ベンチマークの精度が飽和した場合、より挑戦的なバージョンに置き換えられることが多い。しかし、このアプローチは精度を優先し、エージェントパフォーマンスの6つの重要な側面、すなわちショートカットなどの構成的妥当性の問題、分布外汎化性能、効率性、信頼性、モデルとスキャフォールドの相対的重要性、人間とエージェントの協力による向上といった側面を研究する機会を逃している。科学コードの計算再現性に関するベンチマークであるCORE-Bench Hardをケーススタディとして使用し、これらの側面からエージェントを測定することが、精度が飽和した後でもエージェントのパフォーマンスに関する有益な洞察をもたらすことを示す。まず、能力の低いエージェントでは予測が困難なCORE-Bench Hardにおける構成的妥当性への脅威を明らかにし、改良版ベンチマークCORE-Bench v1.1と分布外タスクスイートCORE-Bench OODを導入する。

解説

AI（人工知能）の世界では、新しい技術が登場すると、その性能を測るための「ものさし」として「ベンチマーク」というものが使われます。これは、AIがどれだけ賢くなったかを数字で示すためのテストのようなものです。たとえば、AIに難しい計算問題を解かせたり、文章を理解させたりして、その正解率を競うわけです。しかし、最近の研究で、このベンチマークの使い方が少し行き詰まっていることが指摘されています。

多くのAIは、ベンチマークのテストで高い点数を取れるように訓練されると、あっという間に「満点」に近い状態になってしまうことがあります。これを「飽和」と呼んでいます。まるで、テスト勉強ばかりして、テストの点数は上がったけれど、本当の応用力は身についていない、という状態に似ています。この飽和状態になると、従来のベンチマークではAIの本当の能力を測ることが難しくなってしまうのです。

そこで、今回の研究では、単に「正解できるか」だけでなく、AIの「本当の賢さ」を多角的に評価する方法を提案しています。具体的には、以下の6つの視点からAIを分析しようとしています。

1. **構成的妥当性**: AIが問題を解く過程で、回り道（ショートカット）をせずに、きちんと段階を踏んで解決できているか。 2. **分布外汎化性能**: 見慣れない問題や、テストの範囲外の問題に、どれだけ対応できるか。 3. **効率性**: 問題を解くのに、どれだけ無駄なく、速く、少ないエネルギーでできるか。 4. **信頼性**: AIの回答は、どれだけ信用できるか。間違った情報や、偏った見方をしないか。 5. **モデルとスキャフォールドの相対的重要性**: AIの「頭脳」となるモデル自体と、それを支える周辺技術（スキャフォールド）のどちらが、より性能向上に貢献しているか。 6. **人間とエージェントの協力による向上**: 人間とAIが協力することで、それぞれ単独でやるよりも、どれだけパフォーマンスが上がるか。

これらの視点を評価するために、研究チームは「CORE-Bench」という、科学技術分野の計算コードが正しく再現できるかを測るベンチマークを例にしました。特に、「CORE-Bench Hard」という、より難しいバージョンを使って、AIが満点近くになってしまう従来のベンチマークでは見えにくかった問題点を明らかにしました。例えば、能力の低いAIだと、どういう間違いをするか予測が難しい「構成的妥当性」の脅威が見つかったのです。

さらに、これらの課題に対応するため、改良版の「CORE-Bench v1.1」や、未知の問題に対応する力を測る「CORE-Bench OOD」といった新しい評価ツールも開発しました。これは、AIの進化が止まったように見えても、その「賢さ」をより深く、そして実社会で役立つ形で理解するための重要な一歩と言えるでしょう。

今後の予測

AIのベンチマーク飽和問題は、今後ますます深刻になると考えられます。特に、大規模言語モデル（LLM）のような、非常に強力で汎用性の高いAIが登場するにつれて、従来の「正解率」だけを競うベンチマークでは、その真の能力を測りきれなくなるでしょう。このため、今回提案されているような、多角的で、より現実世界に近い課題を想定したベンチマークの開発が加速すると予想されます。

一つは、AIが「なぜ」その答えを出したのか、その思考プロセスを評価するベンチマークです。これは「説明可能性」や「解釈可能性」と呼ばれ、AIの信頼性を高める上で不可欠になります。もう一つは、AIが未知の状況や、倫理的なジレンマに直面した際に、どのように判断を下すかを評価するベンチマークです。これは、AIが社会に広く受け入れられるための重要なステップとなるでしょう。

一方で、ベンチマーク開発競争が激化し、特定のベンチマークで高いスコアを出すことだけを目的とした「ベンチマークハッキング」のような現象も起こり得ます。そのため、ベンチマークの設計者たちは、常に新しい評価手法を模索し、AIの進化に追いつくための努力を続ける必要があります。最終的には、単一のベンチマークではなく、複数の評価軸を組み合わせた総合的な評価システムが主流になるかもしれません。