TOPIC TIMELINE
タイムライン検索
特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。
2026年5月29日
信頼度ショートカット:マスク拡散モデルの推論失敗モードarXiv:2605.29123v1 公表予定タイプ:新規 概要:マスク拡散言語モデル(MDM)は任意の順序の生成をサポートしており、信頼度ベースのデコーディングが事実上標準的な推論ポリシーとして機能している。これを最適化するため、最近のトレーニングスキームでは、生成時に観察されるマスクパターンと直接整合させることを試みている。
arXiv cs.AI
2026年5月29日
EvoSpec: リアルタイム語彙とパラメータ適応を通じた推測的デコーディングの進化推測的デコーディングは、ドラフト・検証パラダイムを通じて大規模言語モデルの推論を加速させますが、語彙サイズの拡大に伴い出力投影層がボトルネックになります。既存の静的プルーニング方法は有効にこのオーバーヘッドを削減しますが、受け入れ率の大幅な低下という課題があります。
arXiv cs.CL
2026年6月1日
COFT:大規模言語モデルにおけるフェアな思考の連鎖推論のための反事実適合デコーディングarXiv:2605.30641v1 大規模言語モデル(LLM)は、思考の連鎖(CoT)生成中に社会的偏見を明らかにし、増幅する可能性がある。本論文では、デコード時にトークンレベルのフェアネス制御を適用する訓練不要のデコーディング方法であるCOFT(フェアな思考の連鎖)を提案し、分布自由の周辺有効性を保証する。
arXiv cs.CL
2026年6月1日
言語間での推測デコーディング推測デコーディングは大規模言語モデル(LLM)の推論において重要な要素となり、複数のトークンをドラフト作成し並列検証することで高速な生成を実現している。しかし小規模ドラフトモデルは多言語対応で顕著な性能低下が生じる傾向にある。
arXiv cs.CL
2026年6月2日
SENSE: 検索ベースの推測的デコーディングのためのセマンティック埋め込みナビゲーション(ソフトゲート評価付き)推測的デコーディング(SD)は軽量なドラフトモデルを使用して候補トークンを提案し、ターゲットモデルによって並列で検証することで、大規模言語モデル(LLM)の推論を加速化します。生成品質を損なわないまま実現されます。検索ベースの推測的デコーディング(RSD)はその利点から好まれています。
arXiv cs.CL
2026年6月2日
BudgetDraft:スパースKV推測デコーディング用の受け入れ認識マルチビュー訓練推測デコーディングは、ドラフタが複数のトークンを提案し、検証者が並列で検証することによって、自己回帰デコーディングを高速化します。リソース制約のあるデプロイメントでは、ドラフタはスパースKVキャッシュを使用して、固定KV予算下でのピークGPUメモリとエンドツーエンドレイテンシを制限し、検証者が検証します。
arXiv cs.LG
2026年6月2日
TrustLDM: 言語拡散モデルの信頼性ベンチマーク言語拡散モデル(LDM)の急速な発展は、言語処理における自己回帰型モデルの優位性に課題を提示しています。ただし、その柔軟な任意順序デコーディング戦略は高速なデコーディング速度を実現する一方で、新しい信頼性の課題をもたらす可能性があります。
arXiv cs.CL
2026年6月2日
ART: 効率的な大規模言語モデルデコーディングのための注意実行時終了大規模言語モデル(LLM)における長文脈デコーディングは、広範なキー・バリュー(KV)キャッシュをフェッチするために必要なメモリ帯域幅によって厳しく制限されています。既存のKV管理方法の大多数はデコーディング前のキーのみプルーニングに依存していますが、注意出力はキーと値に共同で依存することが実証されています。
arXiv cs.CL
2026年6月8日
低データ・高次元出力問題のためのガウス過程潜在因子回帰科学分野では、少ない訓練例から高次元出力を予測する回帰タスクが頻繁に必要とされる。多出力ガウス過程は低データ体制で優れているが、通常は高次元出力に対応できない。PCA-GPなどの圧縮後予測パイプラインは高次元性を扱えるが、予測ではなく再構成に最適化された基底に依存している。このギャップに対処するため、ガウス過程事前分布から抽出した低次元潜在状態の線形ガウスデコーディングとして各出力を表現するモデルを提案する。デコーダの重みを解析的に周辺化することで、圧縮と予測を単一の目的関数に結合し、高次元出力に対応可能にした。このモデルをGaussian process latent factor regression (GPLFR)と呼ぶ。本研究では、ロッキータイプ系外惑星の全球気候モデルの初の空間分解エミュレータを構築することによってGPLFRを実証した。
arXiv cs.LG
2026年6月10日
多様体逸脱の緩和:信頼性の高いMLLMデコーディングのための不確実性を認識したサブスペース修正arXiv:2606.09859v1 新規発表 要約:MLLMは、視覚的入力と一致しないオブジェクトを頻繁に幻視します。この問題は通常、言語プリアイアンスへの過度の依存に起因しますが、これは視覚的コンテキストを上書きする可能性があります。最近のトレーニングフリーのデコーディング戦略は、言語プリアイアンスを罰することでこれに対処します。しかし、これらの方法は、視覚的証拠との整合性に応じて、言語プリアイアンスが有益であると同時に有害であるという二重の性質を見落としています。特に、言語プリアイアンスを盲目的に抑制すると、モデルのセマンティック多様体が破壊され、パフォーマンスが低下する現象が発生します。これを「多様体逸脱」と呼びます。この問題に対処するために、Manifold-Guided Adaptive Projection (MGAP) を提案します。これは、幻視を緩和しつつ、表現構造を維持する、ジオメトリを認識したトレーニングフリーのデコーディング手法です。MGAPはまず、SVDを介して盲目の隠れ状態から言語プリアイアンスサブスペースを構築します。
arXiv cs.LG
2026年6月11日
LatticeBridge:忠実な構造化シーケンス合成のためのレアケース逐次推論arXiv:2606.11203v1 新規発表 構造化シーケンス生成では、しばしば1つの出力で複数の入力由来の制約を満たすことがモデルに求められます。標準的なデコーディング手法では、流暢な継続に高い確率を割り当てる一方で、必要なアンカーをすべて同時に実現する継続には低い確率を割り当てる可能性があります。これをレアケース逐次推論問題として研究します。LatticeBridgeは、コンパクトなプレフィックス言語モデル、インスタンスコンパイルされたサーフェスオートマトン、そしてリサンプリング、マルチレベル分割、インスタンス提供フレーズから導出されるソースサポート提案項を備えたツイスト逐次モンテカルロ(SMC)デコーダーを組み合わせます。制約表現は各入力インスタンスからコンパイルされ、手動でキュレーションされた語彙クラスに依存しません。
arXiv cs.CL
2026年6月16日
自然言語における任意の条件付きモデルの単純化Causal Transformersは、同時分布の自己回帰的因数分解を通じてシーケンスをモデル化し、効率的な左から右へのデコーディングと条件付き尤度計算を可能にします。しかし、任意の条件(例:過去と未来のトークンに条件付けられたテキストブロック)からのサンプリングや評価を効率的に行うことはできません。最近の研究では、新しいアーキテクチャを通じてこの問題の解決を目指していますが、そのような条件のモデル化が最適でなく、生成結果が低下することがよくあります。我々は、標準的なCausal Transformersに簡単な変更を加えることで、単一のフォワードパス内で、過去、未来、混合コンテキストを含む任意の条件からの評価とサンプリングを可能にするArbitrary Conditionals GPT (AC-GPT)を提案します。先行研究とは異なり、我々の手法は、自然言語における高いパフォーマンスと効率的なトレーニングの両方に不可欠な、標準的な左から右への順序と次トークン予測の目的を維持します。重要なのは、この互換性により、既存のLLMを任意の条件付けのためにファインチューニングできることです。
arXiv cs.CL
2026年6月17日
Amazon SageMaker AIでP-EAGLEによる並列投機的デコーディングを実現この記事では、Amazon SageMaker AI内でP-EAGLEを直接使用する方法を解説します。SageMaker JumpStartカタログから互換性のあるモデルを選択し、並列ドラフトの仕様を設定して、生成AIアプリケーションを高速化する高度に最適化されたリアルタイムSageMaker AIエンドポイントをデプロイする方法をデモンストレーションします。
AWS Machine Learning Blog
2026年6月18日
JetFlow:並列ツリードラフティングで投機的デコーディングのスケーリング限界を打破投機的デコーディング(SD)は、複数のトークンをドラフトし、それらを並列に検証することで、自己回帰型大規模言語モデル(LLM)を高速化しますが、スケーリング上の限界に直面しています。ドラフト予算を増やしても、受理率が高く、ドラフトのオーバーヘッドが低い場合にのみ速度が向上します。この限界は、従来のヘッドベースのSD手法が因果関係と効率性のジレンマに直面しているため、打破が困難でした。自己回帰型ドラフターは、パス条件付き候補を生成し、これらは高い受理長を持つツリー投機的デコーディングに効果的ですが、そのドラフトコストはツリーの深さに比例して増加します。双方向ブロック拡散ドラフターは、一度のパスですべての位置を生成しますが、そのブランチに依存しない周辺分布は、個々にはもっともらしくても相互に矛盾するツリーを形成する可能性があり、予算を無駄にし、受理率を低下させます。本稿では、ヘッドベースのSDフレームワークであるJetFlowを提案します。これは、ワンフォワードドラフティングの効率性とブランチごとの因果条件付けを組み合わせたものです。
arXiv cs.CL
2026年6月18日
大規模音声言語モデルのための継続的音声思考大規模音声言語モデル(LALM)は、音声文字起こしから音楽分析まで、多様な音声理解タスクにおいて印象的な能力を示してきました。しかし、LALMは通常、テキストに合わせた応答を生成するように訓練されているため、その隠れ状態は、音響情報を保持するためではなく、テキスト生成のために段階的に形成されます。その結果、音声が持つ音素の詳細、イントネーション、音響イベント、感情、ピッチなどの多様な音響コンテンツは、途中で失われ、応答で活用することが困難になります。私たちは、応答生成に先立って音響情報を整理するための継続的な潜在ワークスペースを音声言語モデルに装備するフレームワークであるContinuous Audio Thinking(CoAT)を提案します。これは、音声専門家からの知識蒸留によって基盤が作られています。思考空間内では、モデルは応答を生成する際に、専門家からの知識蒸留によって提供される豊かな音響情報を利用できます。さらに、提案された継続的思考ブロックは単一のプリフィルで処理できるため、CoATはベースラインを超える追加の自己回帰デコーディングコストを必要としません。
arXiv cs.CL
2026年6月19日
LLMのコンテキスト内学習における偶然的uncertaintyの定量化:予測信頼性の頑健な指標に向けてコンテキスト内学習(ICL)は、LLMが少数のデモンストレーションから新しいタスクに適応することを可能にしますが、その信頼性は依然として懸念事項です。予測はプロンプト設計とコンテキスト理解能力の両方に非常に敏感であり、失敗がデータ特性に起因するのか、モデルの限界に起因するのかが不明瞭になります。不確実性の分解、すなわち偶然的(aleatoric)なものと認識的(epistemic)なものの分離は、この設定において特に重要ですが、標準的な生成タスク用に設計された既存の方法では、ICLのユニークなダイナミクスを捉えきれません。この問題に対処するため、ベイズ的見解とICLのメカニズム的解釈可能性に基づいて構築された、self-function vectorという概念を導入します。これらのベクトルは、内部モデル表現を活用して、コンテキスト内プロンプティング中に学習された潜在概念をモデル化します。これにより、ベイズ的フレームワーク内で偶然的uncertaintyを直接推定することが可能になり、脆弱な入力やデコーディング操作への依存を回避できます。
arXiv cs.CL
2026年6月20日
クエリはどこに配置すべきか?デコーディングダイナミクスによる拡散LLMにおけるコンテキスト内学習のポジショナルバイアスの解明と緩和コンテキスト内学習(ICL)は自己回帰(AR)LLMで広く研究されているが、拡散大規模言語モデル(dLLM)におけるそのメカニズムはほとんど未解明のままである。ARモデルは単方向の因果マスキングに制約されるのに対し、dLLMは本質的に双方向アテンションを利用し、クエリ配置に広範な空間的柔軟性を提供する。しかし、現在の実践ではARスタイルの後続クエリテンプレートが慣習的に継承されており、構造的なパラダイムシフトが見過ごされがちである。本稿では、クエリ位置がdLLMにおいて実際に一次変数であることを明らかにする包括的な分析を提示する。経験的な分離を通じて、位置の変動が例のセマンティック品質と同等に生成品質に影響を与えることを実証する。内部的には、この位置的感度は、アテンションフローにおける空間的な「新近性効果」と、デコーディング軌跡におけるタスク依存的なシフトに起因する。正解ラベルなしでこの不安定性を緩和するために、従来の単一ステップ信頼度(C_decoded)がdLLMでは失敗することを明らかにする。
arXiv cs.CL
2026年6月25日
Dustin:投機的デコーディングによる効率的な長文脈生成のためのドラフト拡張スパース検証投機的デコーディングは、マルチバッチ長文脈大規模言語モデル(LLM)の推論スループットを向上させますが、その効率は、キー・バリュー(KV)キャッシュのロードがレイテンシを支配する検証ボトルネックによってしばしば制限されます。既存の圧縮方法はこの状況では機能しません。静的除外は顕著性のシフトによる精度低下を引き起こし、動的選択は検証パス中に許容できない計算オーバーヘッドを導入します。私たちは、長文脈の投機的デコーディングのために設計されたスパース検証フレームワークであるDustinを提案します。Dustinは、ドラフトモデルからのルックアヘッド信号とターゲットモデルからの履歴アテンションを統合し、マルチステップ検証ウィンドウ全体で高忠実度で重要なトークンを特定します。再計算レイテンシを削減するために、このアプローチはさらに、アテンションヘッドの最小サブセットに重要度スコアリングを制限するスパース推定スキームを採用しています。
arXiv cs.CL