TOPIC TIMELINE
タイムライン検索
特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。
2026年6月1日
MAAT:マルチフェーズ アダプター対応ターゲット型アンラーニングarXivで発表された論文:機械アンラーニング評価は構造的に偏っており、因果関係と関係知識を探索するWhy型質問がCounterFactでは0.06%未満、ZSREでは0.6%、TOFU、MUSE、WMDP-Cyberでは1.3%未満にすぎず、この極度の不足は因果知識で失敗する手法が存在することを意味する。
arXiv cs.LG
2026年6月18日
SAGE:最終アンラーニングベクトルのリテンションを考慮した事後サニタイゼーション大規模言語モデル(LLM)のアンラーニングは、保持されている能力を維持しながら、望ましくない知識や振る舞いを削除することを目的としています。現在のアンラーニング手法はすべて、アンラーニングとリテンションのトレードオフを伴います。リテンション活性化バイアスが、アンラーニングプロセスの具体的な実装を考慮せずに、アンラーニング手法がリテンションに与えるダメージを定量化するためにも使用できることを発見しました。これにより、事後アプローチを使用して、あらゆるアンラーニング手法のリテンションパフォーマンスを回復させることができます。したがって、元のアンラーニングパイプラインを再実行せずに最終的な更新ベクトルをサニタイズするための補完的な事後設定を提案します。この設定では、SAGE(Spectral Activation-GEometry Sanitization)を設計します。これは、最終的なアンラーニング更新のためのソースに依存しない補正です。SAGEは、小さなリテンプロキシから実際のモジュール入力を収集し、その支配的な活性化ジオメトリを抽出し、ソースアンカード最適化目的を閉形式で解決します。
arXiv cs.LG
2026年6月29日
「機械アンラーニング」という言葉はLLM分野で過剰に使われている大規模言語モデル(LLM)は、規制上の削除義務、著作権・ライセンス紛争、安全・製品ポリシー上の要件などから、学習データの削除、知識や挙動の「忘却」を求められることが増えています。本稿では、LLM研究において「機械アンラーニング」という言葉が過剰に使用されており、データセットで定義された削除、すなわち、指定された忘却セットの学習影響を正確に除去し、その結果得られるモデルがそのデータなしで再学習した場合とほぼ区別がつかなくなるような場合にのみ予約されるべきだと主張します。現在「アンラーニング」とラベル付けされている多くのタスク(有害な要求への拒否、エンティティ/知識の削除、標的型抑制など)は、異なり、しばしばポリシーに依存した目標を追求しており、したがって異なる用語やベースライン(アライメント、抑制、編集、難読化など)が必要であると論じます。
arXiv cs.CL