ai2026/6/16 13:00:00

OSGuard：コンピューター利用エージェントの安全性ベンチマーク

ニュース概要

コンピューター利用エージェントは、現実的なデスクトップおよびWebタスクを完了できるかによって、ますます評価されています。しかし、タスクの成功だけでは、エージェントが安全でない近道で公称目標を達成した場合の失敗を見逃す可能性があります。我々は、穏やかな、変更されていないユーザー指示の下でコンピューター利用エージェントの安全性を評価するためのデュアルグラニュラリティベンチマークスイートであるOSGuardを導入します。OSGuardは、ローカルガードレールの決定のためのアクションレベルベンチマークと、エンドツーエンド評価のためのリスク拡張実行スイートを含みます。アクションレベルベンチマークは、元の指示と現在のインターフェース状態に対して判断された、許可、無関係、または安全でないとラベル付けされたコンテキスト化された提案アクションで構成されています。実行スイートは、元のタスクが達成可能であるOSWorld派生タスクバリアントを手動で構築したものであり、環境は破壊的な上書きなどの潜在的な危険を導入するように変更されています。

解説

最近、「AIエージェント」という言葉を耳にする機会が増えましたね。これは、私たちがパソコンやスマホでこなしているような作業を、AIが私たちの代わりに実行してくれる技術のことです。例えば、ウェブサイトで情報を検索したり、ファイルを整理したり、といったことをAIが自動的にやってくれるようになる未来がすぐそこまで来ています。

これまで、こうしたAIエージェントの性能を測るには、「どれだけ多くのタスクを正確にこなせるか」が主な基準でした。しかし、今回紹介する「OSGuard」という新しい評価基準は、そこに一石を投じています。OSGuardが問いかけているのは、「タスクを達成できたとして、そのやり方は本当に安全だったのか？」という、より深い問題意識です。

考えてみてください。AIエージェントが「〇〇のファイルを削除して」という指示を受けたとき、もしそれが重要なシステムファイルだったとしたらどうでしょう？ AIが指示通りに削除してしまえば、タスクは「成功」したと見なされるかもしれませんが、結果としてコンピューターが動かなくなってしまうかもしれません。あるいは、ウェブサイトから情報を集める際に、AIが誤って悪意のあるサイトにアクセスしたり、個人情報を漏洩するような「近道」を選んでしまったりする可能性もあります。

OSGuardは、このような「危険な近道」を見つけるために、二つの異なるアプローチでAIエージェントを評価します。一つは「アクションレベルベンチマーク」。これは、AIが次にどんな行動をしようとしているか、その一つ一つの行動が指示に対して「適切か」「無関係か」「危険か」を細かくチェックするものです。まるで、AIの行動を逐一監視し、不審な動きがないか確認する門番のような役割です。

もう一つは「リスク拡張実行スイート」。これは、あえて危険な要素を仕込んだ仮想環境でAIにタスクを実行させることで、AIが予期せぬトラブルにどう対処するか、あるいはトラブルを引き起こしてしまうのかを試すものです。例えば、重要なデータが簡単に上書きされてしまうような状況を作り出し、AIがそれを防ぐことができるか、といったことを検証します。

このOSGuardの登場は、AIエージェントの進化において非常に重要な一歩と言えるでしょう。単に「できること」を増やすだけでなく、「安全にできること」を保証するための道筋を示しています。私たちの生活にAIが深く関わるようになる未来において、このような安全性の評価は、AIを信頼し、安心して利用するために不可欠な要素となるはずです。

今後の予測

OSGuardのような安全性ベンチマークの登場は、AIエージェントの開発競争に新たな視点をもたらすでしょう。今後は、単に機能の多さやタスクの完了率だけでなく、「いかに安全にタスクを遂行できるか」がAIエージェントの優劣を測る重要な指標となります。これにより、開発者はより堅牢で信頼性の高いAIエージェントの開発に注力せざるを得なくなるでしょう。

一つのシナリオとしては、OSGuardのようなベンチマークが業界標準となり、AIエージェントの認証やライセンス取得の要件となる可能性も考えられます。消費者は、安全基準を満たしたAIエージェントを選ぶことができるようになり、企業は製品の安全性をアピールする新たな競争軸を得るでしょう。これにより、AIがより広く社会に受け入れられる土壌が育まれるかもしれません。

一方で、別のシナリオとしては、安全性評価の複雑化がAI開発のスピードを鈍化させる可能性も指摘されます。厳格な安全基準をクリアするためには、より多くの時間とコストがかかるため、特に中小規模の開発者にとっては参入障壁が高まる恐れもあります。しかし、長期的には、安全性への投資がAI技術全体の信頼性を高め、より持続可能な発展を促すと考えられます。