TOPIC TIMELINE
タイムライン検索
特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。
2026年5月29日
強化学習ベースの産業用ディスパッチングにおけるシミュレーション・ツー・リアル・ギャップの解決(実行セマンティクスを通じて)イベント駆動型スケジューリング・ポリシーは産業環境で導入されており、非同期で部分的に観測されたシステム状態下で決定が行われます。その結果、決定状態は時間的一貫性を欠き、アクション実行可能性が明示的に定義されず、実行の由来に関する問題が生じます。
arXiv cs.AI
2026年5月29日
ログアライメント比による訓練時の汎化診断パラメータ化理論で導入されたパラメータ活性化アライメント測度であるログアライメント比(LAR)を研究します。これを行列の正規化された2乗特異値のウェイトスペクトル p と正規化された2乗射影値のアクティベーションスペクトル q との重複として再構成します。
arXiv cs.LG
2026年6月10日
KVキャッシュ量子化によるアライメント崩壊:診断と緩和arXiv:2606.09864v1 新規発表 論文要旨:キーバリュ(KV)キャッシュ量子化は、大規模言語モデル(LLM)の推論メモリを削減するために広く利用されていますが、既存の評価は、安全性への影響を評価することなく、パープレキシティと精度のみを測定することに焦点を当てています。本研究では、KVキャッシュ量子化下でのアライメント(整合性)の維持を探求します。11の命令チューニング済みモデル(3.8B-72B)と5つのベンチマーク(1,894プロンプト)にわたる調査で、低ビット量子化が安全なアライメントを静かに破壊しうることを発見しました。具体的には、Mistral-7Bはパープレキシティ1.03倍のわずかな増加で拒否率が15.2%失われ、普遍的な安全なビット幅は存在せず、標準的な指標では見えない鋭いモデル固有の位相遷移が見られました。根本原因は幾何学的なものであることを特定しました。安全機能は、パープレキシティの全体表現空間平均よりも10^2〜10^3倍量子化ノイズに弱い低次元アクティベーションサブスペースを占めています。
arXiv cs.LG
2026年6月11日
迎合に対する二元的評価:同意の構造と介入の限界arXiv:2606.11205v1 発表タイプ:新規 要旨:アクティベーション・ステアリング(Activation steering)はLLM(大規模言語モデル)の挙動を変化させることができますが、標準的な評価では、迎合削減(sycophancy-reduction)の方向性が事実的に正しい発言への同意も抑制するかどうかを通常テストしません。本研究では、各トピックの二つのスタンス(迎合的スタンスと事実的スタンス)をテストする二元的評価(dual-stance evaluation)を導入し、Llama-3-8B-Instructにセントロイド差ステアリング(centroid-difference steering)を適用します。その結果、分離(dissociation)が明らかになりました。モデルは、迎合的な同意と事実的な同意を幾何学的に異なる部分空間で表現しますが、ステアリング方向は両方に等しく投影され、どちらか一方を差別的にターゲットにすることはできません。この方向性は、事実的に正しい発言(例:地球は丸いという事実)への同意と迎合的な発言への同意の両方を同様に低下させます。
arXiv cs.LG
2026年6月11日
Metaアプリ全体でグローバルなサッカーファンを熱狂させるMetaは、Threads、Instagram、Facebook、WhatsAppに、アスリートコンテンツ、試合コンテンツ、アプリ内アクティベーションなど、新たなサッカー関連機能を提供します。
Meta AI
2026年6月16日
ソフトバンク、OpenAI技術で企業のサイバー攻撃を防ぐ新サービスを発表ソフトバンクグループ、ソフトバンク、SB OAI Japanの3社は、企業向けのサイバーセキュリティ対策ソリューション「Patching as a Service」(パッチング・アズ・ア・サービス)の提供を開始した。
ケータイ Watch
2026年6月18日
より良い合成データを望むなら?アクティベーション・ステアリングで低リソース言語生成を誘導する大規模言語モデル(LLM)は、特に低リソース言語において、合成データ生成の効果的なツールとなっています。生成されたデータは、下流タスクのパフォーマンスを向上させることができます。現在最も性能の高いアプローチは、通常、ターゲット言語の例を用いた少数ショットプロンプティングに依存していますが、これは推論コストを増加させ、語彙の固定化により多様性を低下させる可能性があります。本研究では、低リソース合成データ生成の代替手段としてアクティベーション・ステアリングを調査します。言語の言語的同一性をターゲットとする「言語ステアリング」と、人間が書いたテキストとバックトランスレーションされたテキストの表現を対比させることで、適切さを捉える「品質ステアリング」という2つのステアリング戦略を研究します。これらの手法を4つのオープンソースLLM、複数のレイヤー、およびタイプ論的に多様な11言語にわたって評価し、感情およびトピック分類データを生成し、より小さな分類器をファインチューニングしました。
arXiv cs.CL
2026年6月23日
大規模なアクティベーションはアーキテクチャ的に堅牢:制御されたスクラッチ/コミットメント残留ストリームテスト訓練されたトランスフォーマーは、中央値よりもはるかに大きな値を持つ少数の隠れ次元で、シーケンス開始トークンに集中する大規模なアクティベーションを確実に発達させます。これらの外れ値が、残留ストリームの過負荷になった読み書きの役割の除去可能なアーティファクトなのか、それとも機能的な必要性なのかは活発に議論されています。アーキテクチャ的介入により、アーティファクト仮説を直接テストします。 Ledger Residuals というアーキテクチャは、残留ストリームを、中間計算が自由に上書きできる変更可能なスクラッチストリーム(Deliberation)と、モデルが読み出す表現を保持する保護されたデコード専用アキュムレータ(Commitment)に分割します。大規模なアクティベーションが、1つのストリームがスクラッチパッドと回答の両方になることを強制される場合にのみ存在するのであれば、専用の回答チャネルがあればそれらを削除できるはずです。しかし、そうではありませんでした。
arXiv cs.LG
2026年6月26日
NVIDIA Blackwell搭載Amazon SageMaker AIでのモデルトレーニングの最適化本記事では、AWS上のBlackwellのアーキテクチャを最大限に活用するために、Amazon SageMaker AIでのトレーニングジョブを構成する方法を説明します。Blackwellの拡張メモリを活用するバッチサイズとシーケンス長の選択方法、モデルサイズ(1B~64Bパラメータ)に適した精度フォーマットの選択、アクティベーションチェックポインティングの戦略的な適用方法を学びます。
AWS Machine Learning Blog
2026年6月29日
複数のメディエーターの呪い:アクティベーション・パッチングにおける隠れた相互作用効果アクティベーション・パッチングは、メカニズム解釈における主要なツールです。これは、モデルの振る舞いに対する因果的責任を、個々のコンポーネントの自然間接効果(NIE)を推定することによって、各コンポーネントに帰属させます。因果メディエーション分析からアクティベーション・パッチングの推定量を再導出すると、NIEは特定のコンポーネントを介した因果効果のみを捉えるのではなく、コンポーネントの因果効果自体がモデル内の他のコンポーネントの状態にどの程度依存するかを測定する相互作用効果(INT)も含まれていることがわかります。自然な対応策として、推定量や分析単位を調整してINTを排除しようとすることが考えられますが、これらの潜在的な解決策はそれぞれ予測可能な失敗モードを持っています。GPT-2 IOI回路でこれらの失敗モードを実証し、因果的重要性が他のコンポーネントの状態に条件付けられているコンポーネントは、見えなくなるか、人工的に誇張され、INTの分散が忠実度スコアの以前に文書化された不安定性を説明します。
arXiv cs.LG