一つの脱獄、多様な言語：多言語脱獄検知のための言語非依存型意図表現の学習

ニュース概要（出典記事の要点）

new 概要: 大規模言語モデル（LLM）は、グローバルな多言語ユーザー向けのアプリケーションにますます導入されていますが、安全トレーニングは依然として主要言語に集中しており、多言語機能の進化と並行して進んでいません。これにより、脱獄攻撃に悪用可能なギャップが生じています。現在の…

※ 上記は出典記事の要約です。本サイト独自の分析・背景解説は下記をご覧ください。

解説

最近、私たちの生活に欠かせなくなりつつあるAI、特に大規模言語モデル（LLM）は、日本語だけでなく、世界中のさまざまな言語で利用されるようになりました。まるで、たくさんの国の言葉を話せるAIの通訳さんが、私たちの質問に答えてくれるようなものです。

しかし、この便利なAIには、ちょっと困った問題があります。AIは、人々が不適切な使い方をしないように「安全な使い方」を学習しています。例えば、人を傷つけるような言葉や、違法な行為を助長するような質問には答えないように、と教え込まれているわけです。これを「安全トレーニング」と呼びます。ところが、この安全トレーニングが、主に英語のような特定の言語に集中して行われてきたため、他の多くの言語では、安全対策が手薄になっている、という状況が生まれています。

例えるなら、英語の道路にはしっかりした交通ルールや標識がたくさんあるのに、他の言語の道路はまだ整備が追いついていない、といったイメージです。この「整備不足」を狙って、AIに不適切な情報を引き出させようとする試みを「脱獄攻撃」と呼びます。まるで、抜け道を探して、本来禁止されている場所に入り込もうとするようなものです。

今回の論文「一つの脱獄、多様な言語」は、この問題に正面から取り組んでいます。研究者たちは、「MLJailDe」という新しい仕組みを提案しました。これは、さまざまな言語でAIが不適切な質問をされたときに、それをちゃんと「脱獄攻撃だ」と見抜けるようにするための技術です。

具体的には、まず「多言語バックトランスレーションデータ拡張」という方法を使っています。これは、たとえば英語で書かれた安全な質問や危険な質問を、一度他の言語に翻訳し、さらに元の言語に翻訳し直す、という作業を繰り返すことで、たくさんの言語での学習データを効率的に増やす技術です。これによって、AIは「この質問は、たとえ何語で聞かれても、同じような危険な意図がある」と理解できるようになります。論文では、11もの言語にまたがる学習データを作り上げ、AIが言語の違いに惑わされずに、質問の「本当の意図」を見抜けるように訓練した、と報告しています。

この研究は、私たちが安心してAIを使えるようになるために、非常に重要な一歩と言えるでしょう。世界中の誰もが、言語の壁を感じることなく、安全にAIの恩恵を受けられる未来に繋がる可能性を秘めています。