TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
LoRe: ステップごとのインタラクション予算を備えた適応的インタラクション評価ルーティング
組み合わせ最適化のための拡散ベースのニューラルソルバーは、密なエッジ/因子インタラクションを繰り返し再評価し、ウォールクロック時間での推論を高くし、スケール時にメモリボトルネックになることが多いです。多体物理学の計算方法論にインスパイアされ、訓練不要な推論効率を実現するLoReを導入しました。
arXiv cs.LG
2026年6月1日
UniScale: モデルルーティングとテスト時スケーリングのオンライン共同最適化による適応的統一推論スケーリング
大規模言語モデル(LLM)の実世界展開では、推論品質と計算コストのバランスが中心的な課題となっています。既存のアプローチはこのトレードオフに対して、主に独立した2つの次元に沿って対処しています。モデルルーティング機能は異なるスケールのモデル間で切り替えて要件に対応します。
arXiv cs.AI
2026年6月2日
TIGER:マルチモーダル生成における幻覚軽減のためのグラフベース証拠ルーティングによる追跡可能な推論
入力によってサポートされていない特定の事実を含む可能性のあるマルチモーダル生成のファクトレベルの修復を研究します。既存の推論時間修復方法は、入力と現在の出力の両方を条件として、フィードバックを生成します。この設計には2つの制限があります。
arXiv cs.AI
2026年6月8日
Workday、「Sanaセルフサービスエージェント」をMicrosoft 365 Copilot上で利用できるサービスを提供
米Workdayは現地時間5月13日、Workdayの業務自動化エージェント「Sanaセルフサービスエージェント」を、Microsoft 365 Copilot上で利用できるサービスの提供を開始した。
クラウド Watch
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上
英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習（CPT）、教師あり微調整（SFT）、およびグループ相対方針最適化（GRPO）を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL
2026年6月10日
感覚から意思決定へ：マルチモーダルLLMにおける聴覚・視覚知覚の情報フロー
arXiv:2606.10147v1 新規発表。マルチモーダル大規模言語モデル（MLLM）は、聞くことと見ることが可能ですが、音声と視覚の信号はどのようにネットワークを通過して回答を形成するのでしょうか？研究や実世界での応用においてその役割が増大しているにもかかわらず、音声と視覚のトークンが最終的な予測にどのように影響を与えるかの内部経路は、依然として十分に理解されていません。本研究では、音声・視覚大規模言語モデル（AVLLM）内部の音声・視覚情報フローを調査し、2つの入力構成、すなわち音声・視覚ビデオと複数のインターリーブされた音声・視覚アイテムにおいて、AVLLMが音声と視覚の情報をどのようにルーティング、利用、統合するかを追跡します。音声・視覚ビデオの場合、AVLLMはVLMやVideoLLMで確立されたシーケンシャルな情報フロー経路に従い、音声と視覚の貢献は、タスクが各モダリティに依存する割合に応じてこの経路を流れることがわかりました。複数のインターリーブされた音声・視覚アイテムがある設定では、このルーティングは異なる並列ストリームにシフトします。
arXiv cs.AI
2026年6月11日
カスタマーサポートはAIで十分？約7割が「利用したい」、それでも人間対応を求めるワケ【HubSpot Japan調べ】(Web担当者Forum)
HubSpot Japanは、「日本のカスタマーサービスに関する意識・実態調査2026」を実施した。日本国内のカスタマーサービス担当者618名、企業のカスタマーサービス利用経験者206名を対象に調査し
Yahoo!ニュース IT
2026年6月11日
勾配ベースのグレイ・スコットシステム逆問題における損失ランドスケープ診断：PINNコンポーネントの役割の解明
arXiv:2606.11258v1 発表タイプ: new 要旨：反応拡散システムの勾配ベース逆問題は、通常、サロゲートモデルまたは物理情報ニューラルネットワーク（PINN）を介してアプローチされますが、最も直接的な経路であるPDE構造自体のバックプロパゲーションは、ほとんど回避されてきました。私たちは、この直接的な経路を診断プローブとして追求し、定常状態の損失をアンロールされたグレイ・スコットシミュレーションを通じてバックプロパゲートして、パラメータを回復させます。サロゲートやニューラルネットワークの追加はありません。最適化は収束に失敗し、損失ランドスケープを直接プロットすることで、その幾何学的形状における失敗が特定されます -- 勾配信号のない平坦なプラトーと、分岐境界に整列する鋭い崖によって区切られています -- これは、損失関数全体で繰り返され、勾配がパラメータにどのようにルーティングされても引き継がれる構造です。
arXiv cs.LG
2026年6月16日
PhoneHarness：GUI、CLI、ツールアクションを組み合わせた電話エージェントの活用
電話エージェントは、単に次の画面アクションを予測するだけでなく、実際のモバイルワークフローを完了することが期待されるようになっています。しかし、現在のモバイルエージェントに関する文献の多くは、エージェントを主にGUIコントローラーとして評価しており、画面を監視し、タップやスワイプを実行し、ターゲットアプリの状態によってスコアリングされます。実際の電話使用タスクはより広範であり、アプリGUI、デバイスサイドコマンド、または構造化ツールの使用時期を判断し、意図した副作用が実際に発生したことを示す証拠を残す必要があります。本稿では、検証可能なモバイルワークフローで電話使用エージェントを研究するための、混合アクションベンチマークおよび実行ハーネスであるPhoneHarnessを紹介します。PhoneHarnessは、GUI、CLI、およびホストサイドツールアクションを介してデバイスサイドのエージェントループを実行し、決定論的なアクションルーティングと、境界のあるGUI委任、監査可能な実行トレースを組み合わせています。
arXiv cs.CL
2026年6月18日
各トークンからより多くの価値を引き出す: Copilotがコンテキスト処理とモデルルーティングを改善する方法
GitHubが開発するAIプログラミングアシスタント「GitHub Copilot」が、ユーザーエクスペリエンスの向上を目指し、機能強化を進めていることが明らかになりました。今回の改善は、特にコンテキスト処理とモデルルーティングに焦点を当てており、これによりトークンの利用効率が大幅に向上すると見込まれています。 Copilotは、ユーザーのコーディング作業をサポートするために、内部でトークンと呼ばれる処理単位を使用しています。これまでのバージョンでは、このトークンが必ずしも最も有用な作業に割り当てられていないケースがありました。しかし、新しいコンテキスト処理機能により、Copilotは現在のプログラミングセッションにおける関連情報をより正確に特定し、必要な情報のみをモデルに提供できるようになります。また、モデルルーティングの改善は、特定のタスクに対して最適なAIモデルを動的に選択することを可能にします。これにより、無駄な処理が削減され、各トークンがより価値のある結果を生み出すために利用されるようになります。結果として、ユーザーはCopilotからより質の高いコード提案やサポートを効率的に受けられるようになり、開発効率の向上が期待されています。 GitHub Blog (AI)
GitHub Blog (AI)
2026年6月18日
トークンあたりの価値を最大化：Copilotによるコンテキスト処理とモデルルーティングの改善
GitHub Copilotがセッションあたりの有用な作業時間を増やし、クレジットをより有効活用する方法について解説します。本記事「トークンあたりの価値を最大化：Copilotによるコンテキスト処理とモデルルーティングの改善」は、The GitHub Blogに最初に掲載されました。
GitHub Blog (AI)
2026年6月19日
分布シフト下におけるキャリブレーションされた混合エキスパートモデルに向けて
新しい研究が、混合エキスパート（MoE）モデルがデータ分布の変化、いわゆる分布シフトの状況下でどのように機能するかを詳細に分析しました。この研究は、特にモデルが情報をどのように振り分けるか（ルーティングメカニズム）と、個々の専門家（エキスパート）の出力がどれほど正確に確率を表現しているか（キャリブレーション）の相互作用に焦点を当てています。分析の結果、MoEモデルにおいて、特定のルーティング方法（ハードルーティング）が用いられている場合、広範囲な分布シフトがあっても個々のエキスパートが適切にキャリブレーションされていれば、モデル全体のキャリブレーションも保たれることが示されました。しかし、別のルーティング方法（ソフトルーティング）の場合には、個々のエキスパートのキャリブレーションだけでは不十分であることが明らかになりました。この課題に対応するため、研究者たちは「敵対的再重み付け」という手法を提案しています。これは、分布シフトが生じた際に、ルーティングされた情報の集約におけるキャリブレーション誤差に対してペナルティを課すことで、モデル全体の信頼性を向上させることを目指しています。引用元: arXiv cs.AI
arXiv cs.AI
2026年6月19日
[ITmedia エンタープライズ] ネットワークもエージェント型へ HPEのArubaとMistの共通化で運用はどう変わる
HPEは、AIファクトリーやデータセンター、企業エッジの全域に自律型ネットワーク戦略を拡張する新施策を発表した。AIデータセンター用ネットワークとルーティング、Agentic AIOps、セキュリティ分野の新機能を投入し、分散化が進むAI活用環境の運用簡素化と性能向上を図る。
ITmedia 全カテゴリ
2026年6月19日
DeXposure-Claw：DeFiリスク監視のためのエージェントシステム
分散型金融（DeFi）は、監視担当者に急速に変化し、ネットワーク化された信用リスクをさらけ出します。汎用的なLLMエージェントはこの状況には不向きで、弱い証拠を過剰に読み取り、高リスクな介入を推奨する一方、既存の評価方法では、結果として生じる誤報を測定するための規制当局に沿った方法が提供されていません。本稿では、LLMの決定を構造化された証拠にルーティングする、予測に基づくエージェント型監視システム「DeXposure-Claw」を導入します。（1）グラフ時系列基盤モデル「DeXposure-FM」が将来のエクスポージャーネットワークを予測します。（2）次に、決定論的なモニターとストレステストシナリオが、それらの予測をタイプ化されたアラート、帰属シグナル、およびシナリオ証拠に変換します。（3）データヘルスと信頼度ゲートが、「DeXposure-Claw」が根拠とともに監査可能な監視チケットを発行する前にエスカレーションを制限します。さらに、6軸評価ハーネス「DeXposure-Bench」を開発しました。
arXiv cs.AI
2026年6月23日
AIエージェント向け従量課金インテリジェンスの構築：AmpersendがAmazon Bedrock AgentCore Paymentsを活用する方法
この記事では、AmpersendがAmazon Bedrock AgentCore Paymentsの上に構築した、AIエージェント向けの従量課金ルーティングレイヤーについて解説します。AIエージェントは、タスクを最も効果的なモデルに自律的にルーティングし、リクエストごとに支払いを行い、予算内で運用されます。
AWS Machine Learning Blog
2026年6月23日
PEAR: 順列等変適応ルーティングマルチエージェントディベート
マルチエージェントディベートは、反復的なピアレビューを通じて大規模言語モデル（LLM）の信頼性を向上させます。しかし、固定トポロジーはしばしば永続的な位置バイアスを導入し、信頼性の低いエージェントを増幅させ、役割割り当てへの高い感度を引き起こします。本稿では、推論時に通信役割とスパーストポロジーを連続的なディベートラウンド間で動的に再構成する推論時間プロトコル、Permutation-Equivariant Adaptive Routing Multi-Agent Debate (PEAR) を紹介します。進化するエージェントの状態に基づいて戦略的にエージェントから役割への割り当てを切り替えることで、PEARはエージェントが特権的なネットワーク位置を永続的に占めることを防ぎ、またはディベート全体にわたって影響力をより均等に分散させます。PEARを同変スパースルーターとして理論的に特徴付けます。これは、エージェントの再ラベリング下での精度を維持しつつ、ルーティング複雑性を低減し、汎化性能を向上させます。
arXiv cs.AI
2026年6月25日
エージェント型説得における複合的失敗の診断と緩和：分類学的戦略検索を通じて
マルチステップでオープンエンドな環境における基盤モデルエージェントは、初期の誤りが長期間の軌跡を汚染する複合的エラーに頻繁に悩まされます。マルチエージェントディベート（MAD）は決定論的なドメインで成功を収めていますが、説得のような主観的なタスクでは、エージェントは深刻な問題のドリフトと迎合的な同調に苦しんでいます。標準的なRetrieval-Augmented Generation（RAG）におけるセマンティックリークがこれらの失敗の再現可能なトリガーであることを特定しました。これは、標準RAGが論理的必然性よりも語彙の重複を優先するためです。このリークを排除するために、Taxonomic Strategy RAG（TS-RAG）を導入しました。これは、議論の構造とトピックの内容を分離するために、戦略を離散的なカテゴリのボトルネックにルーティングするシステム介入です。ゼロショット・クロスドメイン評価により、TS-RAGは標準的なセマンティック検索が崩壊する抽象論理の転移を大幅に改善することが示されました。
arXiv cs.AI
2026年7月2日
エージェント検出、ルーティング、アクセス制御のためのサーバーレスA2Aゲートウェイ構築
この記事では、AWS上にサーバーレスA2Aゲートウェイを構築し、パスベースルーティング（/agents/{agentId}）を使用して単一ドメイン配下に複数のエージェントをホストする方法を解説します。標準的なA2Aクライアントは変更なしで動作します。
AWS Machine Learning Blog
2026年7月2日
運用中の航空交通管制を支援するソリューション空間経路計画
技術の進歩に伴い、航空交通管理（ATM）のための多くの経路計画アルゴリズムが提案されてきましたが、戦術的管制での運用上の採用は依然として限定的であり、アルゴリズム設計の優先順位と航空交通管制官のニーズとの間に不一致があることが明らかになっています。これは、本質的に解釈可能で、計算効率が高く、人間が使用するために明示的に設計された意思決定支援ソリューションの必要性を強調しています。この設計上の課題に焦点を当て、本研究では、2つの指針となる考慮事項（1）ソリューション空間表示が提供する解釈可能性と柔軟性。これにより、すべての実行可能な安全なアクションを公開し、変化する最適化目標に対応するアルゴリズムを構築することが奨励されます。（2）管制官が運用上の制約（分離基準、操縦性制限、ウェイポイント最小化、ルーティングの実用性など）を施行する際に自然に適用する意思決定ロジック。これらの原則を中心に、アルゴリズムは、計算効率の高い方法で衝突のないパスを特定するために、ソリューション空間フレームワーク内に3つの意図ベースの衝突検出方法（距離ベース、時間間隔ベース、ゾーンベース）を統合します。
arXiv cs.AI
2026年7月2日
FRAME: 分数フーリエ変換エキスパートの混合による適応ドメイン学習
パラメータ効率の良いファインチューニング（PEFT）は、固定基底での重み更新を再パラメータ化する。低ランクアダプタは空間ドメインで動作し、最近のスペクトル手法は固定フーリエドメインで動作する。我々は、ドメインの選択自体が学習されるべき設計自由度であり、単一の基底がタスク、レイヤー、トークン全体で最適であるとは限らないと主張する。我々は、分数フーリエ変換エキスパートの混合（FRAME）を導入する。これは、各エキスパートが学習可能な分数フーリエ変換次数を持つエキスパートの混合アダプタであり、空間ドメイン（バニラLoRAを復元）とフーリエドメイン（スペクトルアダプタを復元）を連続的に補間する。トークンをこの空間-スペクトル連続体の異なる点に配置されたエキスパートにルーティングすることで、モデルは各低ランク更新を最もコンパクトなドメインに配置でき、分数フーリエ変換演算子は互いに非コヒーレントであるため、エキスパートは自然にデコヒーレントになり、干渉を減らし、マルチタスク合成を改善する。
arXiv cs.LG
2026年7月2日
1回の書き直しで十分：本番環境におけるスキル説明最適化からの経験則
エンタープライズAIエージェントは、自然言語によるスキル説明とのマッチングにより、ユーザーのクエリを専門スキルにルーティングします。2つのスキルが説明を共有し重複する場合、ルーティングLLMはクエリを誤ルーティングします。これはスキル・コリジョンと呼びます。エージェントが数十のスキルにスケールアップすると、ルーティング精度を維持するために説明を手動で調整することが、著しいエンジニアリング・ボトルネックとなります。私たちは、本番環境のエンタープライズグループチャットエージェント（9スキル、372件のリグレッションケース）に、自動化された説明最適化パイプラインを導入しました。このパイプラインは、平均79.2%のF1スコアで説明を生成し、手動で調整された説明の79.4%のF1スコアに匹CHします（平均スキル差-0.20%、0.78%のマルチシード・ノイズフロア内）。これにより、スキルあたりのエンジニアリング作業時間を120分から3.8分に削減（32倍の高速化）しました。次に、どのパイプラインコンポーネントが実際にこのマッチングを推進するかを調査します。
arXiv cs.CL
2026年7月3日
鉄道踏切のマルチモーダル安全性分析
鉄道踏切の画像から、視覚的情報を用いて安全性を堅牢に推定できるか？また、その踏切の過去の事故記録（公式事故報告など）のような構造化データをモデルに導入することで、その推定能力を向上させることができるか？本稿では、これらの問いに最もよく答える方法を探求し、鉄道踏切のマルチモーダルデータを摂取し、専門家の意見や連邦鉄道管理局（FRA）が使用する安全スコアリングに合致する安全性評価とスコアを提供するAIシステムの構築を目指す。そのために、目標を達成する概念実証パイプラインを提案すると同時に、データ準備からシステム実現を可能にする多様な学習パラダイムに至るまで、パイプラインの様々な部分に関連する多くの重要な研究課題を探求し、取り組む。具体的には、提案システムは、ルーティングされたファインチューニングされたコンパクトVLMパイプラインを使用し、マクロF1スコア0.757で「高リスク」と「低リスク」の踏切を識別し、RMSE 0.078、相関0.492でFRAベースの安全スコアを推定し、ドメイン専門家の評価に合致する定性的な結果を生み出す。
arXiv cs.LG
2026年7月3日
サービスエージェントはいつ再考すべきか？カスタマーサービス業務における難易度ルーティング制御
自律的なカスタマーサービスエージェントは、会話インターフェースから運用実行の役割へと移行しています。具体的には、企業記録の取得、サービスポリシーの適用、返金、キャンセル、交換、注文変更、予約変更などのバックエンド書き込みを実行します。この移行はサービス制御の問題を生み出します。企業は、ルーチンサービスを迅速かつ低摩擦に保ちながら、顧客の指示、ポリシー制約、企業記録、バックエンド書き込みが相互作用するリクエストにおける運用エラーを防ぐ必要があります。本稿では、サービスエージェントが行動前にいつ再考すべきかを問う、難易度ルーティングされたサービス制御アーキテクチャを提案します。軽量ルーターは、ルーチンセッションを低コストのベースラインパスに維持し、運用的に連携したセッションをエスカレートされたワークフローにルーティングします。エスカレートされたパスは、すべてのサービスセッションに均一に追加制御を適用するのではなく、結果を伴うバックエンド書き込みの前に、紛争を意識したコミュニケーションと書き込みトリガーによる再考を使用して、検討と保護策を集中させます。
arXiv cs.AI