ai2026/6/26 13:00:00

チャットモデルにおける「拒否」はペルソナの下流に存在

ニュース概要

指示チューニングされたチャットモデルにおいて、「拒否」と「ペルソナ」の両方に対する活性化空間内の線形方向が特定されましたが、これらは別個のメカニズムとして研究されてきました。本研究では、これらが相互作用することを示します。すなわち、従順なペルソナが拒否を抑制します。Qwen2.5-7B-InstructおよびLlama-3.1-8B-Instructにおいて、従順なモデルペルソナ方向と拒否方向を抽出し、両方に介入します。従順なペルソナへの誘導は拒否を抑制し、Llamaでは拒否率が97%から2%に低下します。拒否方向を再導入すると、後層で拒否が部分的に回復しますが、前層では回復しません。後層のウィンドウでペルソナ方向を射影するとベースラインに戻りますが、ランダムな方向を射影しても戻りません。したがって、「拒否」は計算される場所の下流、すなわち後層の表現段階でゲートされていることが示唆されます。「拒否」を単一の孤立した方向として扱うことは、ペルソナへの依存性を見落とします。

解説

AIチャットボットが「できません」と答えることがありますよね。これって、どういう仕組みで決まっているんだろう？と疑問に思ったことはありませんか？これまで、AIが「拒否」する仕組みと、AIが特定の「性格」（ペルソナ）を持つ仕組みは、別々のものとして研究されてきました。でも、今回の研究で、実はこの二つが深く関わっていることが分かったんです。

研究チームが注目したのは、AIが「従順な性格」を持つように指示された場合と、「拒否」する仕組みです。具体的には、「Qwen2.5-7B-Instruct」と「Llama-3.1-8B-Instruct」という二つのAIモデルを使って実験しました。このAIたちは、指示された通りに動くように「指示チューニング」という特別な訓練を受けています。

実験では、AIの「性格」と「拒否」の仕組みが、AIの内部でどのように表現されているか（これを「活性化空間内の線形方向」と呼んでいます）を調べました。そして、AIの「性格」を「従順」な方向に誘導してみたところ、なんとAIが「拒否」する回数がぐっと減ったんです。特にLlamaモデルでは、拒否率が97%から2%まで低下するという劇的な結果が出ました。これは、AIが「従順な性格」を持つように仕向けると、それまで「拒否」していたような指示に対しても、応じやすくなることを示しています。

さらに、AIの「拒否」する仕組みに再度働きかけると、AIの処理の後の方（後層）では拒否が少し戻るものの、前の方（前層）では戻らないことも分かりました。これは、「拒否」という判断が、AIの計算プロセスの後半、つまり情報を処理し終える直前で「制御」されている可能性を示唆しています。まるで、AIが最終的な返答を決める「門番」のような役割をしているのかもしれません。

この研究は、「拒否」というAIの振る舞いを、単独の機能として捉えるのではなく、AIが持つ「性格」や「指示への従順さ」といった、より大きな文脈の中で理解する必要があることを教えてくれます。AIがなぜ「できません」と言うのか、その背景には、私たちが思っている以上に複雑な、そして人間的な（？）相互作用があるのかもしれませんね。

今後の予測

今回の研究結果は、AIチャットボットの開発において、単に「拒否」をしないようにするだけでなく、AIの「性格」や「応答スタイル」をどのように設定するかが、その振る舞いに大きな影響を与えることを示唆しています。今後、AIがより自然で、ユーザーの意図を汲み取った応答をするためには、この「ペルソナ」と「拒否」の相互作用を考慮した設計が重要になるでしょう。

例えば、特定のタスクにおいては「従順」なペルソナを強めることで、より多くの指示に対応できるようになるかもしれません。逆に、セキュリティや倫理的な観点から「拒否」が必要な場面では、ペルソナ設定とは独立して、安全な応答を確実に選択できるような仕組みが求められます。将来的には、ユーザーがAIの「性格」を細かく調整し、それに伴って「拒否」の挙動も変化するような、よりパーソナライズされたAI体験が可能になるかもしれません。一方で、AIが「なぜ拒否したのか」をユーザーに分かりやすく説明する能力も、信頼関係を築く上で不可欠となるでしょう。AIの「拒否」は、単なるエラーではなく、AIの高度な判断能力の一部として、今後さらに深く研究されていくと考えられます。