
画像: Pexels
SafeGene: 転送可能な安全性アライメントのための再利用可能なアダプター
ニュース概要
オープンウェイトLLMは、カスタマイズされたアシスタントへのファインチューニングが増加していますが、下流のファインチューニングにより安全性アライメントが弱まり、訓練データが意図的に有害でない場合でも、モデルが悪質なプロンプトに対して脆弱になる可能性があります。ターゲットモデルが新しいタスクデータやユーザーインタラクションで繰り返し更新されるため、反復的な安全性回復の問題が生じます。本論文では、各アーキテクチャ互換モデルファミリー内での横断的再利用のために設計された再利用可能な安全性アダプターモジュール「SafeGene」を提案します。安全性回復をモデル固有の修復ステップとして扱う代わりに、SafeGeneは安全性能力をタスク固有の更新から分離された独立した再利用可能なアダプター表現として扱います。この表現は、アラインされた-劣化したモデルの差分から取得され、データに対応したレイヤー選択を通じてタスク転送可能な安全性ベクトルに精密化され、各下流タスク適応モデルで少数ショットレイヤー単位の係数再キャリブレーションを通じて表現されます。
ニュースタイムライン
2026年5月8日
RVPO:分散正則化によるリスク敏感性アライメントApple Machine Learning Research
2026年5月29日
ICG:MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善arXiv cs.CL
2026年5月29日
表現アライメントは線形構造に基づいているarXiv cs.LG
2026年5月29日
LoRAアダプターの特徴幾何学:微調整言語モデルにおける表現的乖離のスパースオートエンコーダ分析arXiv cs.LG
2026年5月29日
ログアライメント比による訓練時の汎化診断arXiv cs.LG
2026年6月1日
生成型AIにおける多元的アライメント評価フレームワークarXiv cs.AI
2026年6月1日
COMPASS: 安全な検索エージェントのための認知的MCTS誘導プロセスアライメントarXiv cs.AI
2026年6月1日
大規模言語モデルにおけるアライメント特性の測定、特定、および除去arXiv cs.LG
2026年6月1日
バランス型安全性アライメントのための設定可能なリワードモデルarXiv cs.CL
2026年6月1日
MAAT:マルチフェーズ アダプター対応ターゲット型アンラーニングarXiv cs.LG
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
関連記事
こんな記事も読まれています
コメント (0)
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報








