News in Focus
ai2026/6/8 13:00:00
SafeGene: 転送可能な安全性アライメントのための再利用可能なアダプター

画像: Pexels

SafeGene: 転送可能な安全性アライメントのための再利用可能なアダプター

出典: arXiv cs.AI (原典を開く)

ニュース概要

オープンウェイトLLMは、カスタマイズされたアシスタントへのファインチューニングが増加していますが、下流のファインチューニングにより安全性アライメントが弱まり、訓練データが意図的に有害でない場合でも、モデルが悪質なプロンプトに対して脆弱になる可能性があります。ターゲットモデルが新しいタスクデータやユーザーインタラクションで繰り返し更新されるため、反復的な安全性回復の問題が生じます。本論文では、各アーキテクチャ互換モデルファミリー内での横断的再利用のために設計された再利用可能な安全性アダプターモジュール「SafeGene」を提案します。安全性回復をモデル固有の修復ステップとして扱う代わりに、SafeGeneは安全性能力をタスク固有の更新から分離された独立した再利用可能なアダプター表現として扱います。この表現は、アラインされた-劣化したモデルの差分から取得され、データに対応したレイヤー選択を通じてタスク転送可能な安全性ベクトルに精密化され、各下流タスク適応モデルで少数ショットレイヤー単位の係数再キャリブレーションを通じて表現されます。

ニュースタイムライン

  1. 2026年5月8日

    RVPO:分散正則化によるリスク敏感性アライメント

    Apple Machine Learning Research

  2. 2026年5月29日

    ICG:MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善

    arXiv cs.CL

  3. 2026年5月29日

    表現アライメントは線形構造に基づいている

    arXiv cs.LG

  4. 2026年5月29日

    LoRAアダプターの特徴幾何学:微調整言語モデルにおける表現的乖離のスパースオートエンコーダ分析

    arXiv cs.LG

  5. 2026年5月29日

    ログアライメント比による訓練時の汎化診断

    arXiv cs.LG

  6. 2026年6月1日

    生成型AIにおける多元的アライメント評価フレームワーク

    arXiv cs.AI

  7. 2026年6月1日

    COMPASS: 安全な検索エージェントのための認知的MCTS誘導プロセスアライメント

    arXiv cs.AI

  8. 2026年6月1日

    大規模言語モデルにおけるアライメント特性の測定、特定、および除去

    arXiv cs.LG

  9. 2026年6月1日

    バランス型安全性アライメントのための設定可能なリワードモデル

    arXiv cs.CL

  10. 2026年6月1日

    MAAT:マルチフェーズ アダプター対応ターゲット型アンラーニング

    arXiv cs.LG

🤖

記事AI質問チャット

PREMIUM

この記事についてAIが質問に答えます。背景・要約・影響まで深堀り。

ログインして利用

🛡️ 読者ファクトチェック0

読者が投稿し、管理者承認後に表示される事実確認情報

まだ承認済みのファクトチェックはありません。

ファクトチェックを投稿するには ログイン が必要です

関連記事

こんな記事も読まれています

コメント (0)

コメント投稿にはログインが必要です。

まだコメントはありません。最初のコメントを書いてみましょう。

この記事について疑問がありますか?

事実誤認や不適切な内容について通報できます (要ログイン)。

異議申し立て・通報