TOPIC TIMELINE
タイムライン検索
特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。
2026年5月13日
NVIDIA、Ineffable Intelligenceが強化学習インフラストラクチャの未来構築で協力試行錯誤を通じて学習するAIシステムである強化学習エージェントは、計算を新しい知識に変換することができます。これがNVIDIAとIneffable Intelligenceの新しいエンジニアリングレベルの協業の焦点です。
NVIDIA Blog
2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック(数学やコード実行など)のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年5月29日
強化学習ベースの産業用ディスパッチングにおけるシミュレーション・ツー・リアル・ギャップの解決(実行セマンティクスを通じて)イベント駆動型スケジューリング・ポリシーは産業環境で導入されており、非同期で部分的に観測されたシステム状態下で決定が行われます。その結果、決定状態は時間的一貫性を欠き、アクション実行可能性が明示的に定義されず、実行の由来に関する問題が生じます。
arXiv cs.AI
2026年5月29日
FedQHD: 閉形式関数空間フェデレーション強化学習フェデレーション強化学習は、生のトラジェクトリを交換することなく、分散エージェントが協力してポリシーまたは価値推定を改善することを可能にします。ただし、FedAvgスタイルのパラメータ平均化は関数空間で一貫性がなく、クライアントが異なるエンコーダを使用したり、同じ非線形ネットワークを使用する場合でも問題が生じます。
arXiv cs.LG
2026年5月29日
ビッグ2における不完全情報下の自己対戦強化学習不完全情報の多人数ゲームは、エージェントが隠された情報、スパースな報酬、および非定常の対手の下で行動できるかどうかをテストします。4人プレイの不完全情報カードゲームであるビッグ2でこれらの課題を研究し、制御された比較を可能にする自己対戦RLフレームワークを開発しました。
arXiv cs.LG
2026年5月29日
微分可能な信念ベースの対戦相手形成人間の協調は、戦略的行動を通じて他者の信念に影響を与える能力に依存している。マルチエージェント強化学習では、対戦相手形成がこの影響を複製しようとしているが、既存の方法は通常、対戦相手のパラメータ、ポリシー、または価値空間内で動作している。
arXiv cs.AI
2026年5月29日
言語優先性の脱却: モダリティ認識ポリシー最適化によるオーディオ推論の後期段階モダリティ崩壊の軽減オーディオと全モダリティ大規模言語モデルは印象的なクロスモーダル推論能力を示すが、これらのモデルに標準的な強化学習後処理アルゴリズムを適用すると、GRPO のような方法がすべてのトークンに均一なポリシー勾配を適用する構造的脆弱性が露呈する。
arXiv cs.CL
2026年5月29日
LLM報酬設計が失敗するとき:スパース構造化RLのための診断駆動型改善セマンティック報酬関数インターフェースを持つスパース構造化強化学習タスクの場合、LLM生成報酬形成は一度限りの生成ではなくデバッグとしてより適切に枠付けされている。MiniGridを中核評価として、MuJoCoを境界ストレステストとして使用するPPO訓練エージェントを研究する。本監査では2つの支配的な知見を発見する。
arXiv cs.LG
2026年5月29日
カタストロフィック・フォーゲッティングの機序的起源:RLがSFTよりも回路をよく保持する理由大規模言語モデル(LLM)のファインチューニングはしばしば以前の能力のカタストロフィック・フォーゲッティングを引き起こす。最近の研究によれば、強化学習(RL)は教師あり学習(SFT)よりも効果的に以前の能力を保持し、ポリシー勾配更新がより近い状態に留まることに起因している。
arXiv cs.LG
2026年6月1日
自動運転のための強化学習における不確実性認識と時間的に規制された専門家アドバイスarXiv:2605.30576v1 発表型:新規 要旨:自動運転の強化学習における探索は本質的に危険である。エージェントは学習のために新しい行動を経験する必要があるが、探索は衝突やオフロード走行につながる可能性がある。我々は、長期的な危険を回避しながら探索を導くために専門家アドバイスを活用する不確実性認識フレームワークを提案する。
arXiv cs.AI
2026年6月1日
状態拡張とコンセンサスを用いた分離可能ダイナミクスの拡張可能な制約付きマルチエージェント強化学習状態拡張ポリシー学習と双対変数の分散コンセンサスを組み合わせた制約付きマルチエージェント強化学習の分散アプローチを提示する。本手法は、エージェントが分離可能なダイナミクスを持つシステムを対象とし、グローバルリソース制約を満たすために調整する必要がある。
arXiv cs.LG
2026年6月1日
構造認識報酬による深い研究のためのプランナー中心強化学習深い研究タスクではLLMが調査対象を計画し、エビデンスを検索し、複数の調査分野にわたって長文の回答を合成する必要がある。既存の訓練パラダイムは短文の検証可能なQAをプロキシとして依存するか、モノリシックな長軌跡を最適化するかのいずれかであり、計画と実行が困難である。
arXiv cs.AI
2026年6月1日
SLAT: 効率的なCoT推論のためのセグメントレベル適応トリミング大規模推論モデルの最近の進歩は強化学習(RL)を通じた思考の連鎖(CoT)機能を大幅に改善している。しかし生成された推論チェーンはしばしば構造的冗長性(いわゆる過度な思考)に悩まされ、改善なく高い計算オーバーヘッドを引き起こしている。
arXiv cs.AI
2026年6月1日
Leanの定理証明のためのLLMフィードバック蒸留推論モデルのポストトレーニングは通常、検証可能な報酬からの教師あり微調整と強化学習を組み合わせ、最も一般的にはGRPOで行われている。しかしこのアルゴリズムは報酬の疎さ、限定的な探索、モード崩壊に悩まされている。自己蒸留に関する最近の研究に基づき、改善されたアプローチを提案する。
arXiv cs.AI
2026年6月2日
エージェント的Transformerが強化学習を通じた探索学習を証明可能に行う木探索は多くの言語エージェント推論および意思決定タスクの背後にある中心的な抽象化です。エージェントはアクションを探索し、失敗を記憶し、有望な代替案に向かってバックトラックする必要があります。しかし、Transformerベースのポリシーがこのような探索能力をどのように習得するかについて、理論的理解が不足しています。
arXiv cs.LG
2026年6月2日
CAST:GRPOのための非特権化クリップ付き非対称セルフティーチングとアドバンテージ反転検証可能な報酬を用いた強化学習(RLVR)、特にグループ相対方針最適化(GRPO)は、大規模言語モデルの推論を改善するために広く使用されています。しかし、結果レベルの報酬は疎な教示のみを提供し、サンプリングされた軌跡がすべて同じ結果を得た場合、グループ相対アドバンテージは消失します。
arXiv cs.AI
2026年6月2日
安全な強化学習のためのロバストシールディングシールディングは、マルコフ決定過程(MDP)における強化学習エージェントの安全性を正式に保証する効果的なアプローチです。しかし、既存のシールディング技術は通常、安全性に関連する遷移ダイナミクスの知識を仮定しており、これは実際には稀に満たされる要件です。
arXiv cs.AI
2026年6月2日
SDR:放射線科レポート生成のための設定距離報酬arXiv:2606.00440v1 発表タイプ:新規 概要:検証可能な報酬による強化学習は、ビジョン言語モデルの推論を急速に進歩させています。ただし、胸部X線レポート生成の場合、標準的な報酬(正確一致精度およびステップレベルのプロセス)は、レポートが順序付けされていない直交的な検査結果で構成されているため、互換性がありません。
arXiv cs.AI
2026年6月2日
CSRP: 効率を考慮した報酬による強化学習を通じた中国語テキスト修正のための思考の連鎖推論LLMベースの中国語文法誤り修正(CGEC)システムは2つの重大な課題に直面しています。汎用モデルは微妙な文法的区別のための特化した言語的先験知識が不足しており、最尤推定による教師あり微調整は最適化に失敗しています。
arXiv cs.CL
2026年6月2日
LLM語彙バイアスの分離:選好段階学習のための キュレーション不要な三角測量メトリクス様々な言語領域は近年著しい変化を遂行しており、これらの変化は大規模言語モデルの出現と自然言語使用との整合性の欠如に主に起因しています。これらの不整合は選好学習段階(強化学習など)の一部に由来すると考えられています。
arXiv cs.CL
2026年6月2日
デモンストレーションから報酬へ:VLM報酬モデルのためのテスト時プロンプト最適化強化学習は正確な報酬関数に依存しており、ロボティクスなどの実世界アプリケーションではしばしば手作業で作成されるか利用できません。最近の研究では、事前学習済みビジョン言語モデル(VLM)の零ショット推論能力を報酬モデルとして活用することが検討されていますが、慎重な調整なしに実施することは困難です。
arXiv cs.LG
2026年6月2日
ワールドモデル:アーキテクチャ、方法論、推論パラダイム、およびアプリケーションの包括的調査環境の構造と動力学を学習する内部シミュレーターであるワールドモデルは、人工汎知能の追求における中心的なパラダイムとして出現し、学習された表現内でエージェントが予測、計画、推論を行うことを可能にしています。強化学習全体で急速な進展が見られています。
arXiv cs.LG
2026年6月2日
再試行を通じたポリシー勾配強化学習における探索の出現強化学習(RL)では、エージェントが類似した状態に繰り返し遭遇する場合にのみ探索から利益を得ます。異なるアクションを試すことで性能を改善または不確実性を低減できますが、再試行がなければ貪欲ポリシーが最適です。本論文ではこの直感をReMaxという目的関数で形式化しています。
arXiv cs.LG
2026年6月2日
ARCA:トークン信号が退化した場合のアダプタ残差クレジット割当言語モデルの強化学習におけるトークンレベルのクレジット割当は、通常、ポリシーが完全に訓練可能であるかのように定式化されていますが、実際のLLM-RLパイプラインはパラメータ効率の良い微調整、特にLoRAに依存することが多いです。本論文はこの分離が構造的な失敗モードを隠していることを主張しています。
arXiv cs.LG
2026年6月2日
MindGames Arena 一般化トラック:遅延段階ごと報酬帰属を用いたIn2AIソリューションマルチエージェント戦略的相互作用のための言語モデルエージェントの訓練には、中核的な困難が存在します。任意のアクションの質は、実現しなかった将来のイベント、ゲーム規則に違反する動き、または他のプレイヤーの決定に依存する可能性があります。標準的な強化学習はこれを想定していません。
arXiv cs.AI
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上英語データで主に学習した大規模言語モデル(LLM)は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習(CPT)、教師あり微調整(SFT)、およびグループ相対方針最適化(GRPO)を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL
2026年6月8日
人々がAIに本当に求めるもの:選好の多様性をマッピング大規模言語モデル(LLM)は人間のフィードバックからの強化学習(RLHF)を通じて調整されることが多いが、この方法には既知の制限がある。75カ国のPRISMデータセットから1,500件の自由記述回答を分析した結果、異なる人々がAIシステムに異なるものを求めていることが判明した。ほとんどの価値観は回答者の4分の1未満から要望されており、例外は「真実性」で49%である。同じ言葉でも異なる意味が隠されており、「真実性」の定義は引用元のある主張を求める人、専門家意見を求める人、非主流意見を求める人など、潜在的に相容れない認識論的基盤を示している。人間らしさやAIの安全装置などの機能は物議を醸しており、肯定する人と拒否する人に分かれている。さらに、現在の二値比較では捉えられない状況的区別(デフォルトで行うべきことと「要求された場合」)を人々がよく使用することも判明した。これらの知見は、現在の整合化実務における根本的な問題を明らかにしており、単一の報酬モデルでは複数の定義の「真実性」を捉えることができず、このような現象は認識論的暴力と特徴付けられている。
arXiv cs.CL