
画像: Pixabay
エージェントAI制御評価における攻撃選択は安全性を大幅に低下させる
ニュース概要
AI制御は、能力の高い信頼できないAIエージェントを、より弱い信頼できるモニターと限定的な人間監査予算の下で展開するための安全性フレームワークである。制御評価は、レッドチーム攻撃ポリシーをブルーチームモニターと対立させることでこれらのプロトコルをストレステストするが、現在の評価は通常、攻撃のタイミングを戦略的に選択しない攻撃者を想定している。本研究は、攻撃決定を攻撃開始時期を決定する開始ポリシーと進行中の攻撃を中止するかどうかを決定する停止ポリシーに分解することで、エージェント設定における攻撃選択能力を研究した。BashArenaとLinuxArenaの2つのエージェント設定において、両ポリシーは基礎となる攻撃能力を変えることなく、測定された経験的安全性を大幅に低下させた。監査予算1%の場合、開始ポリシーはBashArenaとLinuxArenaの両方で安全性を20ポイント削減し、停止ポリシーはBashArenaで20ポイント、LinuxArenaで28ポイント削減した。これらの削減は、攻撃選択の効果の上限として解釈されるべきである。
ニュースタイムライン
2026年6月3日
すぐ知りたい「Microsoft Build 2026」まとめ ~Windows AI APIがGPUにも対応、RTX Spark搭載の開発用PC、ローカルSLM新モデル、エージェント前提の新デバイスなど/OpenClawも安全?なAI用サンドボックス、パーソナルエージェントも窓の杜
2026年6月3日
マイクロソフト、AIエージェントにWindowsアプリ開発の知識を与える「Windows Development Skills」を一般提…はてなブックマーク IT
2026年6月3日
Amazon SageMaker AIでSFTとDPOを使用してエージェントのツール呼び出し精度を向上させるAWS Machine Learning Blog
2026年6月4日
「くらしまるごと AI エージェント」の開発を進めるヤマダHD、AI利用方針を策定(ネットショップ担当者フォーラム)Yahoo!ニュース IT
2026年6月8日
長時間タスク対応ウェブエージェントのためのシグナル駆動型観察arXiv cs.CL
2026年6月8日
Lean4Agent: エージェントワークフロー及び軌跡の形式的モデリングと検証arXiv cs.AI
2026年6月8日
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマークarXiv cs.LG
2026年6月8日
CAF-Gen:議論構造を充実させるためのマルチエージェントシステムarXiv cs.CL
2026年6月8日
マイク不要でAmazon Nova Sonicの音声エージェントを大規模に評価するAWS Machine Learning Blog
2026年6月8日
ノートパソコンを閉じても安心:Amazon Bedrock AgentCoreでコーディングエージェントをホストAWS Machine Learning Blog
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
関連記事
こんな記事も読まれています

JR東海、時速285kmの新幹線車内で「誤差3m以内」の位置取得に成功 設備投資ゼロ(CNET Japan)
2026/6/10

【阪神】史上初!高橋遥人&佐藤輝明が2カ月連続の月間MVP 同一球団の同じ2選手受賞は初(日刊スポーツ)
2026/6/10

セゾンテクノロジー、企業のAI活用を統合的に運用管理するAI業務実行基盤「Agent Orchestration」を提供(クラウド Watch)
2026/6/10

【オリックス】杉沢龍が1軍合流! 右手首の骨折から復活 チーム屈指の元気印が再反攻の起爆剤に(スポーツ報知)
2026/6/10

【ラグビー】日本代表合宿メンバー35人発表 リーグワンV神戸から6人、大学生3人選出/一覧(日刊スポーツ)
2026/6/10
コメント (0)
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報



