ai2026/6/25 13:00:00

汎用推論のための転移学習：マルチドメインRLVR向け自動カリキュラム

ニュース概要

検証可能な報酬付き強化学習（RLVR）が、単一ドメインのトレーニングから、数学、プログラミング、科学にまたがるマルチドメイン推論スイートへと拡張されました。しかし、推論スキルのドメイン間での転移は不均一であるにもかかわらず、トレーニングカリキュラム（各ドメインがサンプリングされる頻度）は通常固定または手動調整されています。既存の学習可能性ベースのカリキュラムは、ポリシーが現在改善されている場所に適応しますが、選択されたドメインでの勾配ステップが残りのドメインに利益をもたらすかどうかには盲目です。本稿では、BanditスタイルのオンラインカリキュラムであるTransfer-Aware Curriculum（TAC）を提案します。これは、更新がトレーニングスイートの残りに広く利益をもたらすドメインを優先します。TACは、RLトレーニングによって既に生成されているシグナルを再利用します。

解説

AI（人工知能）の世界では、コンピューターに「考える力」や「問題を解く力」を学ばせる研究が日々進んでいます。特に、人間のように色々な分野の問題を解けるようにする「汎用的な推論能力」の育成は、AI開発の大きな目標の一つです。今回ご紹介するのは、この汎用的な推論能力を効率よく育てるための新しい方法についてです。

AIの学習方法には、報酬（ご褒美）を与えながら試行錯誤させる「強化学習」というものがあります。この技術を、数学やプログラミング、科学といった、それぞれ異なる知識や考え方が必要な複数の分野（マルチドメイン）に応用し、AIに様々な問題を解かせる試みが行われています。しかし、こうしたマルチドメイン学習には、ちょっとした課題がありました。それは、ある分野で学んだことが、別の分野の学習にどれくらい役立つのか、その「スキルの伝わり方（転移）」が、分野によってバラバラだということです。

ところが、これまでのAIの学習計画（カリキュラム）は、どの分野をどれくらいの頻度で学習させるかがあらかじめ決められていたり、人が手で調整したりすることがほとんどでした。これでは、スキルの伝わり方がうまくいかない分野があっても、その分野の学習を優先するといった柔軟な対応ができませんでした。また、既存の学習計画では、「今、AIが一番伸びている分野」に注目して学習を進めるのですが、その分野での学習が、他の分野の学習にどれだけ良い影響を与えるかまでは考慮されていませんでした。

そこで、この研究では「Transfer-Aware Curriculum（TAC）」という、新しい学習計画の仕組みを提案しています。これは、AIが学習を進める中で、「この分野を学習させると、他のたくさんの分野の学習にも良い影響がありそうだ！」という、より広範囲に役立つ分野を優先的に学習させるものです。TACは、AIが学習する際に自然に生まれる情報（シグナル）を賢く利用することで、特別な手間をかけずに、どの分野の学習が最も効果的かを判断します。これにより、AIはより効率的に、様々な分野の問題を解けるようになることが期待されます。

今後の予測

この研究で提案されている「TAC」という仕組みは、AIが学習する際の「カリキュラム」、つまり学習計画を、より賢く、そして効率的にするための新しいアプローチと言えます。今後、このTACがさらに進化していくことで、AIは単に一つの分野に特化するだけでなく、人間のように幅広い知識やスキルを、よりスムーズに、そして深く習得できるようになる可能性があります。

例えば、AIが医療分野の診断スキルを学んだ後、その知識を応用して、新しい薬の開発や、患者さん一人ひとりに合わせた治療法の提案といった、関連する他の分野へも、よりスムーズに知識を転移させられるようになるかもしれません。また、教育分野では、生徒一人ひとりの理解度や得意不得意に合わせて、AIが最適な学習プランをリアルタイムで提供できるようになることも考えられます。

一方で、TACのような仕組みが普及するには、まだ課題も残されています。AIが「どの分野の学習が他の分野に役立つか」を正確に判断するための、より高度な評価指標の開発や、膨大なデータを効率的に処理するための計算能力の向上が求められるでしょう。また、AIが学習する過程で、予期せぬ偏見や誤った知識を身につけてしまうリスクにも、引き続き注意深く対応していく必要があります。これらの課題を乗り越え、TACのような技術が発展していくことで、AIは私たちの生活の様々な場面で、より頼れるパートナーとなっていくことが期待されます。