TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月13日
ダンジョンズ＆デスクトップ：GitHub Copilot CLIを使用して手続き生成ローグライクゲームを構築する
あるGitHubメンバーがGitHub Copilot CLIを使用して、任意のコードベースをユニークなローグライクダンジョンに変える拡張機能を構築した方法を学べます。
GitHub Blog (AI)
2026年5月27日
Amazon Bedrock AgentCoreを使用したAWS上の高度にスケーラブルなサーバーレスLangGraphマルチエージェントシステムの構築
このポストでは、LangGraphエージェントをオーケストレーターとして統合し、Amazon Bedrock AgentCore Memoryと連携させて、AWS上に高度にスケーラブルでサーバーレスなマルチエージェント生成AI システムを構築するソリューションを提供しています。
AWS Machine Learning Blog
2026年6月8日
CAF-Gen：議論構造を充実させるためのマルチエージェントシステム
自然言語テキストから複雑な推論を形式化することは、計算言語学における中心的な課題である。現在の議論マイニング技術は基本的な主張と前提を識別するが、前提のタイプ、証明基準、議論スキームなどの特徴を組み込むカーネアデス議論枠組み（CAF）といった高度なスキーマが必要とする豊かな構造情報を捉えるのに苦労している。本研究は、浅い議論構造をCAF準拠の議論モデルに充実させるために設計された自動マルチエージェントフレームワークCAF-Genを導入することでこの制限に対処している。反復的なクリエイター・レビュアーパイプラインを採用することで、クリエイターエージェントの出力は批評的エージェントによって検証され、構造的整合性が確保される。このマルチエージェント協働は、単一パス生成モデルに典型的な構造的不安定性を軽減するために重要である。実験結果は、反復的なフィードバックループが結果データの品質を向上させ、元のアノテーションとの強い一致を達成しながら、構造的により豊かなモデルを生成することを示している。
arXiv cs.CL
2026年6月13日
2026年6月版開発中の機能を小分けにして本番環境にどんどん出すためには - hitode909の日記
2018年にこんな記事を書いた。ビッグバンマージではなく、少しずつ書いたコードをマージしていき、本番環境を壊さずにリリースする、という話。チーム内では浸透していて、コードベースにはフィーチャーフラグ機能やデバッグ機能が充実している。
はてなブックマーク IT
2026年6月16日
AIエージェント間の信頼：形成、破綻、回復の測定とマルチエージェントシステムのガバナンスへの示唆
言語モデルエージェントがチームで協力する機会が増える中、各エージェントはチームメイトをどれだけ信頼するかを決定する必要があります。しかし、AIエージェント間の信頼を測定する標準的な方法がありません。本研究では、コストのかかる検証に基づく行動測定法を提案します。協力的なサバイバルゲームでは、チームメイトの作業をチェックするにはリソースを消費しますが、間違った答えを信頼すると致命的になり得ます。同じモデルの記憶のないバージョンと比較して、検証の削減は信頼の観測可能な尺度を提供します。このフレームワークを使用して、6つの最先端モデルのスナップショットにわたる信頼の形成、破綻、回復を調査します。一貫して信頼できるチームメイトとペアになった場合、4つのスナップショット（Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1、Gemini 3.1 Pro）は検証を約60〜85％削減しましたが、2つのより小さなスナップショットはほとんど調整を示しませんでした。失敗は信頼の割引を逆転させますが、モデルの対応は異なります。
arXiv cs.AI
2026年6月17日
分散型汎用エージェントネットワーク：アーキテクチャ、主要メカニズム、およびプロトタイプ
大規模言語モデル（LLM）は、受動的な会話アシスタントから、目標を理解し、行動を計画し、ツールを呼び出し、多段階のタスクを実行できる自律エージェントへの移行を加速させています。しかし、単一エージェントの能力は、ローカルデータ、ツール権限、実行環境、およびガバナンスの境界によって依然として制限されています。本稿では、分散型汎用エージェントネットワークについて考察します。これは、個人のデバイス、エッジノード、または自律コンピューティング環境に展開された異種エージェントがお互いを発見し、信頼を確立し、協力ルールを交渉し、オープンエンドなタスクを実行できる、オープンなピアツーピアネットワークです。このようなネットワークは、既存のピアツーピアオーバーレイと従来のマルチエージェントシステムを単純に組み合わせるだけでは得られないと論じます。従来のP2Pネットワークとは異なり、エージェントネットワークは、意図、能力、状態、および協力制約に関するセマンティック宣言を伝播する必要があります。
arXiv cs.AI
2026年6月24日
制約多様体制御による安全かつ汎用的な階層型マルチエージェント強化学習
マルチエージェントシステムは、厳格な安全制約下での協調行動を必要とする安全クリティカルなアプリケーションで広く利用されています。既存のアプローチでは、学習ベースの手法は高い経験的性能を達成するものの理論的な安全性保証を欠く、一方、制御理論ベースの手法は安全性を強制するものの過度に保守的で非効率な挙動につながることが多い、という根本的なトレードオフに直面しています。本研究では、低レベルでは制約多様体を通じて穏やかな仮定の下でハードな安全制約を強制し、高レベルのポリシー学習を通じて効果的な協調を可能にする階層型マルチエージェント強化学習フレームワークを提案します。本アプローチは、マルチエージェント設定において理論的な安全性保証を提供し、定常的な学習ダイナミクスをもたらすことで、安定的で効率的なトレーニングを可能にします。経験的には、本手法はほぼ完璧な安全率を維持しながら競争力のある性能を達成し、エージェント数や障害物の変動に対して効果的に汎化します。
arXiv cs.AI
2026年7月1日
Sakana AIはなぜ「Fugu」の基盤にGoogle Cloudを選んだのか「元DeepMindだから」だけじゃない
Sakana AIはマルチエージェントシステム「Sakana Fugu」の運用基盤に、Google Cloudの「Gemini Enterprise Agent Platform」を採用した。
ITmedia AI+
2026年7月2日
治療的判定システムとマルチエージェントシステムによる人間志向のメンタルヘルスサポートのトレーニング
大規模言語モデルはメンタルヘルスサポートに有望ですが、治療的品質は受動的な指標ではなく、行動可能な制御信号として評価される場合にのみ向上します。本稿では、多次元的かつ人間志向の評価によって推進される意思決定洗練問題として、治療的応答生成を定式化するフレームワークを提案します。フェーズIでは、人間の注釈付きデータにおける選好ベースの最適化を通じてトレーニングされたオープンソースの治療的評価システムであるTheraJudgeを導入し、7つの心理学的次元にわたる信頼性の高い判定を生成します。フェーズIIでは、TheraJudgeの評価を、専門のCritic、Coach、Therapistの役割と連携した洗練プロセスを通じて運用化するTheraAgentを導入し、評価信号をターゲットを絞った応答修正に変換します。経験的に、TheraJudgeは、特に安全性、関連性、共感性などの重要な次元において、教師ありベースラインや強力なクローズドソースの判定システムを上回り、臨床医の評価との高い一致度（ICC = 0.87-0.95）を達成しています。
arXiv cs.CL
2026年7月3日
Agent4cs：大規模階層型コードベースにおけるコード要約のためのマルチエージェントシステム
大規模で複雑なコードベース、特に難読化された構造や不完全なドキュメントを持つコードベースの理解は、依然として大きな課題です。既存のコード要約ソリューションは、Claude Codeのような単一の言語モデルやコーディングアシスタントに依存することが多く、ソースコードをフラットなテキストとして扱い、リポジトリ内の豊富な相互依存関係や階層情報を十分に活用できていません。これらの欠点に対処するため、私たちはAgent4csを提案します。これは、ボトムアップ方式で大規模コードベースを要約するマルチエージェントフレームワークです。このフレームワークでは、要約エージェントが堅牢な要約の生成に焦点を当て、キーワード抽出エージェントがサブフォルダーから重要な情報を積極的に特定し、品質保証エージェントが可読性、一貫性、完全性のために出力を反復的に改良します。7つの最先端モデルで評価されたAgent4csは、コードセグメントを使用した2つの構造化プロンプトベースラインと比較して、すべてのフォルダーレベルで平均8%のセマンティック一貫性の向上をもたらしました。
arXiv cs.AI