ai2026/6/18 13:00:00

ソルバーのボトルネックを打破：学習可能なフロンティアにおけるタスクジェネレーターのトレーニング

ニュース概要

強化学習（RL）によるエージェントのトレーニングにおける制約となっているのは、フロンティアタスクの供給、すなわち現在のモデルをトレーニングするのにちょうど十分な難易度で、有効かつ解けるタスクです。推論能力やエージェント能力を持つモデルが向上するにつれて、固定されたタスク分布は飽和し、単純な合成生成では、簡単すぎる、不可能、または定義が不適切なタスクが生成されます。RLを用いてタスクジェネレーターをトレーニングし、有効性と学習可能性を最適化することで、このボトルネックを解消できますが、直接的な最適化には候補ごとのソルバーの繰り返しロールアウトが必要です。ソフトウェアエンジニアリング（SWE）タスクでは、1回のロールアウトに数十分かかる場合があり、ソルバー・イン・ザ・ループのジェネレーター・トレーニングは現実的ではありません。本稿では、ターゲットとする解法率でタスクジェネレーターをトレーニングするための、ソルバー償却フレームワークであるPROPELを提案します。

解説

人工知能（AI）の進化が止まらない現代で、特に注目されているのが「強化学習」と呼ばれる技術です。これは、AIが試行錯誤を繰り返しながら、まるで人間がスポーツやゲームを学ぶように、最適な行動パターンを見つけ出す学習方法です。

しかし、この強化学習には大きな課題があります。それは、「ちょうどいい難しさの練習問題（タスク）」を用意し続けるのが非常に難しい、という点です。AIの能力がどんどん上がっていくと、これまで使っていた練習問題はすぐに簡単になりすぎてしまいます。かといって、ただ闇雲に難しい問題を作っても、AIにとっては「解けない問題」や「意味不明な問題」になってしまい、学習の役には立ちません。まるで、小学生にいきなり大学レベルの数学の問題を解かせたり、逆に赤ちゃんに簡単な足し算をさせたりするようなものです。

これまでの研究では、AI自身に「タスクジェネレーター」という、練習問題を作るAIを学習させることで、この問題を解決しようとしてきました。AIが成長するにつれて、それに合わせて適切な難易度の問題を生み出すようにするわけです。しかし、ここにも大きな壁がありました。

それは、練習問題を作るAIを評価するためには、実際にその問題が「解けるかどうか」を、別のAI（ソルバー）に解かせてみなければならない、という点です。もし、問題を作るAIが「これは良い問題だ」と考えても、実際に解くAIが「全然解けない」「時間がかかりすぎる」となれば、その問題は良い問題とは言えません。この「解けるかどうか」の確認作業が、特にソフトウェア開発のような複雑なタスクの場合、何十分もかかってしまうことがあります。これでは、問題を作るAIを効率的に学習させることができません。まるで、新しい練習問題を作るたびに、その問題を生徒に実際に解かせて、採点して、フィードバックを得るのに何時間もかかるようなものです。

今回発表された「PROPEL」という新しいフレームワークは、このボトルネックを解消しようとするものです。ソルバー（問題を解くAI）が実際に問題を解く時間を大幅に短縮し、効率的にタスクジェネレーター（問題を作るAI）をトレーニングできるようにする技術です。これにより、AIが自律的に、かつ効率的に、自身の能力を向上させるための適切な練習問題を生成できるようになることが期待されます。これは、AI開発のスピードを飛躍的に向上させる可能性を秘めており、より高度なAIの実現に向けた大きな一歩となるでしょう。

今後の予測

この新しいフレームワーク「PROPEL」の登場は、AI開発の風景を大きく変える可能性があります。

**シナリオ1：AI開発の加速と多様化** ソルバーのボトルネックが解消されることで、より複雑で現実世界に近いタスクにおけるAIの学習効率が劇的に向上するでしょう。これにより、ソフトウェア開発支援、科学研究、医療診断など、これまでAIの適用が難しかった分野でのAI活用が加速します。また、AIが自律的に学習タスクを生成できるようになるため、人間の介在なしにAIが新しい知識やスキルを獲得する「自己進化型AI」の実現に一歩近づくかもしれません。

**シナリオ2：AI倫理と安全性への新たな課題** 一方で、AIが自律的にタスクを生成し学習する能力が高まることで、AIが意図しない、あるいは予期せぬ挙動を示すリスクも高まります。生成されるタスクが倫理的に問題のある内容を含んだり、AIが過度に特定の能力に特化しすぎたりする可能性も考えられます。そのため、AIが生成するタスクの監視や、AIの学習プロセスに安全性を組み込むための新たな規制やガイドラインの策定が急務となるでしょう。

**シナリオ3：教育・トレーニング分野への応用** この技術は、AIのトレーニングだけでなく、人間がスキルを習得する際にも応用できる可能性があります。個人の能力や学習進度に合わせて、最適な難易度の問題や課題を自動生成するシステムが登場し、教育や人材育成のパーソナライズ化がさらに進むかもしれません。