TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習
強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック（数学やコード実行など）のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年6月2日
近未来ガイダンスを通じたオンポリシー蒸留における推論軌跡の橋渡し
オンポリシー蒸留（OPD）は、教師の監督下で自身のポリシーからサンプリングされた軌跡について学生モデルを訓練することで大規模言語モデルの推論を改善します。OPDは軌跡上で動作しますが、その学習シグナルはトークンレベルのままです。高損失トークンを通じて逸脱を特定します。
arXiv cs.CL
2026年6月2日
弱い批評家が強い学習者を作る: スケーラブルな監督のためのオンポリシー批評蒸留
大規模言語モデルがより強力になるにつれて、弱い教師は複雑な出力に対して信頼できるラベル、選好、または最終判断を提供できず、弱から強への汎化とスケーラブルな監督の両方を制限する可能性があります。より扱いやすい弱い教師を使用する形式を研究します。
arXiv cs.AI
2026年6月16日
Nemotron 3 Ultra：エージェント推論のためのオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル
5500億の総パラメータと550億のアクティブパラメータを持つMixture-of-ExpertsハイブリッドMamba-Attention言語モデル「Nemotron 3 Ultra」を紹介します。Nemotron 3 Ultraは20兆トークンのテキストで事前学習され、その後コンテキスト長を100万トークンに拡張し、教師ありファインチューニング（SFT）、強化学習（RL）、マルチティーチャー・オンポリシー蒸留（MOPD）を用いて事後学習されました。Nemotron 3 Ultraは、LatentMoE、マルチトークン予測（MTP）、NVFP4事前学習、マルチ環境RLVR、MOPD、推論バジェット制御といった複数の主要技術を採用した、これまでにない最も高性能なモデルです。Nemotron 3 Ultraは、最先端の公開LLMと比較して最大約6倍高い推論スループットを達成しながら、同等の精度を実現しています。最先端の精度、高い推論スループット、100万トークンのコンテキスト長により、Nemotron 3 Ultraは長期間実行される自律エージェントタスクに最適です。
arXiv cs.CL
2026年6月17日
近接政策最適化のゾーン：勾配ではなくプロンプト内の教師
知識蒸留は教師の能力を小さな生徒モデルに転送しますが、生徒モデルが小さい場合に脆く、汎化性能を損なう可能性があります。強化学習では、教師の応答をポリシー勾配に直接注入すると、オンポリシーの仮定が破られ、ドリフトを引き起こす可能性があります。本研究では、プロンプト内に教師を保持する「近接政策最適化のゾーン（ZPPO）」を導入し、特に難しい質問に対して二つの再構成されたプロンプトを構築します。
arXiv cs.CL
2026年6月17日
LLMの論理的推論における構造的不確実性を用いた一貫性の定量化
大規模言語モデル（LLM）は、不安定、矛盾、または一貫したランク付けが困難な推論パスを通じて同じ回答に到達することがある。これは特に多段階の演繹的推論で顕著な失敗モードである。既存の方法は主にアウトプットのばらつき（サンプリングされた回答がどれだけ異なるかを測定）によって信頼性を評価するが、これは補完的なシグナルである、モデルが競合する推論候補を一貫してランク付けできるか否かを捨てている。本稿では、サンプリングされた推論ソリューションに対する自己選好によって誘発されるランキングの安定性から導出される、一貫性認識フレームワークである構造的不確実性を提案する。クエリに対し、複数の候補ソリューションを生成し、モデル自身の出力間のペアワイズ選好を判断させる。Bradley-TerryモデルとPageRankを用いて自己選好を集計してランキング分布を生成し、そのシグナルを2つのエントロピーベースのコンポーネントに分解する：トライ間ランキングの不安定性とトライ内候補の曖昧さ。5つのLLMと8つのベンチマークにわたって、構造的シグナルは回答のばらつきに補完的な情報を提供する。
arXiv cs.AI
2026年6月18日
CODEBLOCK：適切な粒度でのコード監視学習
コードLLMの教師ありファインチューニングでは、通常、すべての応答トークンに均一なクロスエントロピー損失を適用し、すべてのトークンが等しく有用な学習信号を提供するという暗黙の前提があります。最近のトークンレベル選択手法は、高価値トークンのみを監視することで、自然言語SFTにおけるこの前提に異議を唱えています。しかし、トークンレベルのマスキングをコードに直接転送すると、コードは構造的な完全性と定義-使用関係に依存するため、構文的および意味的に一貫したプログラムユニットが壊れる可能性があります。そこで、私たちは独立したトークンではなく、構造的に完全なコード証拠を選択する構造認識型スパース監視フレームワークであるCodeBlockを提案します。CodeBlockは、まず高品質な命令-応答ペアを選択し、次にコード応答を構文的に一貫したコーディングアイテムに分割し、コアロジックトークンに対する一般化クロスエントロピーを集計してその有用性を推定し、データフローの到達範囲とブリッジ信号で再ランク付けして、重要なプログラム依存関係を伝播または接続するブロックを優先します。
arXiv cs.LG
2026年6月18日
人工ニューラルネットワークにおける衝撃波理論と対称性削減確率的勾配降下法の関連性
微分幾何学、リー群論、流体力学に基づき、衝撃波理論と確率的勾配降下法の対称性商化学習ダイナミクスとの間の数学的に明確な関連性を開発しました。具体的には、パラメータ対称性を商化し、局所エントロピー粗視化を適用すると、有効ダイナミクスは商多様体上の粘性ハミルトン--ヤコビ方程式を満たします。さらに、生パラメータダイナミクスが商化空間上の勾配場によって要約できると仮定すると、粗視化された損失関数の勾配はバーガース型方程式に従い、衝撃形成を厳密に確立できます。この理論を多層パーセプトロン、畳み込みニューラルネットワーク、Transformer、平均場ネットワークに適用し、それらがハミルトン--ヤコビまたはバーガース型方程式に従うことを示しました。このフレームワークは、深層学習の実用的な診断も提供すると推測しています。Transformerのようなアーキテクチャでは、生パラメータノルムは対称性冗長性によってしばしば歪められ、誤解を招く可能性がありますが、対称性補正された商観測量は、トレーニングフェーズ遷移の監視、予測、制御のための原理的な基盤を提供します。
arXiv cs.LG
2026年6月19日
情報格子学習を確率的グラフィカルモデルの構造学習として捉える
情報格子学習（ILL）は、抽象化の階層をエンコードするパーティション格子に信号を交互に投影し、選択されたルールを信号ドメインにリフトバックすることで、信号の解釈可能なルールを学習します。信号が確率質量関数である場合、ILLによって学習された確率的ルールが自然な確率的グラフィカルモデル（PGM）の解釈を許容することを示し、その解釈を詳細に展開します。ILLにおけるパーティションは決定論的な商変数を誘発し、ルールはその商変数の周辺法則です。したがって、ルールセットは解釈可能な抽象化に対する周辺制約のコレクションです。一般的なリフティングは、それらの制約を満たすすべての同時分布の実現可能なファミリーであり、特殊なリフティングは、最大エントロピーに密接に関連するL2均一性原理によってILLで実装された、最大無知再構築を選択します。シャノンエントロピーリフティングの下では、同じ制約が、学習された抽象化によってインデックス付けされた因子を持つ対数線形因子グラフを生成します。しかし、情報格子自体はベイジアンネットワークではありません。
arXiv cs.LG
2026年6月24日
ModTGCN：テキスト分類のためのモジュラリティを考慮したグラフニューラルネットワーク
グラフベースのテキスト分類モデルは、通常、局所的な近傍集約に依存し、意味的な文書グラフが強力なクラス一致クラスタリングを示すにもかかわらず、グローバルなコミュニティ構造を見落としています。これを無視すると、クラス境界が不明瞭になり、過度の平滑化につながる可能性があります。本稿では、クロスエントロピーとモジュラリティベースの補助目的を共同で最適化し、クラスに一致する文書コミュニティを促進すると同時に、識別表現を維持する、テキスト分類のためのモジュラリティを考慮したグラフニューラルネットワークであるModTGCNを提案します。モジュラリティ項は、トランスフォーマー埋め込み（事前学習済みまたはファインチューニング済み）から派生した文書間類似性グラフで計算されます。スケーラビリティを向上させるために、元の異種TextGCNグラフを文書-単語および単語-単語の個別のコンポーネントに分離し、トレーニング速度を2倍から10倍向上させました。さらに、モジュラリティ最適化のためのグラフ構築戦略、ラベルを意識したエッジ再重み付け、および監視の選択について研究します。
arXiv cs.CL
2026年6月25日
密な教師信号だけでは不十分：ループ型言語モデルにおける読み出しの盲点
ループ型言語モデルは、隠れ状態をランタイム状態に変換します。各状態は予測のためにデコードされ、将来の計算にフィードバックされます。これにより、基本的な教師信号の問題が生じます。クロスエントロピーは実際にどの状態変数を制御するのでしょうか？我々は、密なループごとのクロスエントロピーが、リカレント遷移でアクティブな全ての変数を制御するのではなく、読み出しによって公開される変数を制御することを示します。隠れ状態のスケールは、具体的な失敗モードをもたらします。RMSNormやLayerNormのようなスケール不変の読み出しは、直接的なクロスエントロピー損失からラジアルスケールを隠蔽しますが、プリノーム残差リカレンスは同じスケールを保持および更新し続けます。したがって、ループごとの損失は、リカレントスケールを制御せずに早期終了を可能にします。44Mおよび129Mのループ型トランスフォーマーで、ループ間正規化なしの場合、RMSNorm読み出しによるループごとのクロスエントロピーは、依然として最終的な隠れ状態のノルムを数千または数万に押し上げます。
arXiv cs.LG
2026年6月29日
EntMTP：エントロピー誘導型マルチトークン予測によるLLM推論の高速化
マルチトークン予測は、トレーニング中のデータ密度を向上させ、下流のテキスト生成品質を改善することが示されており、自己投機的デコーディングの事実上のアプローチとして機能します。MTPヘッドを使用する既存の基盤モデルおよびオープンソースモデルは、生成シーケンス全体で静的なツリーベースの注意トポロジーにコミットしており、これは、推論の深さ、したがって検証中に必要な計算量が、コンテキストに関係なく一定であることを意味します。これは、自然言語のエントロピーパターンとは根本的に一致していません。自然言語では、低エントロピー領域は信頼性の高いマルチステップドラフトをサポートすることが多いですが、高エントロピー領域はより保守的な推論を必要とします。これを解決するために、ローカル生成エントロピーの実行中の推定値に基づいて、タスク固有のパレート最適ツリーのセットからツリーベースの注意トポロジーを切り替える、トレーニング不要のスケジューラであるエントロピー誘導型マルチトークン予測（EntMTP）を提案します。
arXiv cs.CL
2026年6月30日
SEAD：エントロピー誘導型教師あり学習による、能力を考慮したオンポリシー蒸留
オンポリシー蒸留（OPD）は、オフライン蒸留や強化学習（RL）にはない特性、すなわち教師の監督品質が生徒の能力に依存するという特性を持っています。不整合なロールアウトはノイズの多い勾配を生み、既に習得したトークンは冗長なものになります。これは3つのスケール（トークン、トレーニングフェーズ、プロンプト）で無駄を生じさせますが、既存の方法は均一に監督します。本稿では、SEADを提案します。これは、3つのスケールにおけるこの能力依存型の劣化の統一的なプローブとしてエントロピーを使用します。（1）教師と生徒の共同エントロピーは、トークンを、調整されたダイバージェンスまたはゼロ勾配を受け取るゾーンに分割します（約50％がスキップされます）。（2）コサインスケジュールは、能力の成長に伴い、フォワードKLからリバースKLへと減衰します。（3）能力ゲート付きカリキュラムは、簡単なものから難しいものへとプロンプトを導入します。これらのコンポーネントは共生的かつ必要不可欠です。トークン選択には整合性の取れたロールアウト（カリキュラム）が必要であり、減衰には単調な改善（これもカリキュラム）が必要です。
arXiv cs.CL