TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月8日
RVPO：分散正則化によるリスク敏感性アライメント
現在のクリティック不要なRLHF手法は、複数目的報酬を算術平均で集約しており、制約無視に対して脆弱である。一つの目的での大きな成功が数値的に他の目的を相殺する可能性がある。
Apple Machine Learning Research
2026年5月29日
カタストロフィック・フォーゲッティングの機序的起源：RLがSFTよりも回路をよく保持する理由
大規模言語モデル（LLM）のファインチューニングはしばしば以前の能力のカタストロフィック・フォーゲッティングを引き起こす。最近の研究によれば、強化学習（RL）は教師あり学習（SFT）よりも効果的に以前の能力を保持し、ポリシー勾配更新がより近い状態に留まることに起因している。
arXiv cs.LG
2026年5月29日
ICG：MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善
arXiv:2605.27374v1 マルチモーダル大言語モデル（MLLM）と拡散モデル（DM）の最近の進歩により、AI生成コンテンツの新しい可能性が開かれた。しかし、パーソナライズされたカバー画像生成は、デジタルプラットフォームでのユーザーエンゲージメント向上における重要な役割にもかかわらず、ほとんど未開拓である。
arXiv cs.CL
2026年5月29日
ログアライメント比による訓練時の汎化診断
パラメータ化理論で導入されたパラメータ活性化アライメント測度であるログアライメント比（LAR）を研究します。これを行列の正規化された2乗特異値のウェイトスペクトル p と正規化された2乗射影値のアクティベーションスペクトル q との重複として再構成します。
arXiv cs.LG
2026年5月29日
表現アライメントは線形構造に基づいている
プラトン表現仮説（PRH）を信号、バイアス、ノイズの3分岐統計フレームワークを通じて調査します。信号に関しては、プラトンアライメントは、表現に線形でエンコードされるオブジェクトと属性間の普遍的関係から生じることを提案します。
arXiv cs.LG
2026年5月30日
AIによる認知機能セルフチェックアプリ「ONSEI Pro」2026年夏に開設予定の「ハイメディック横浜ベイコース」に導入
高齢化に伴い認知症患者が増加する中、AI技術を活用した認知機能セルフチェックアプリ「ONSEI Pro」が2026年夏開設予定の「ハイメディック横浜ベイコース」に導入されることになりました。従来の医師による問診に加え、AIによる簡易スクリーニングが可能になることで、認知機能低下の早期発見が期待されます。このシステムにより、患者の自己認識と医師の判断のズレを可視化し、より正確な診察方針の策定と医療スタッフの業務効率化が実現する見込みです。一方、AIモデルの精度やデータセキュリティ、患者プライバシーの保護が課題として残されています。
PR TIMES
2026年6月1日
大規模言語モデルにおけるアライメント特性の測定、特定、および除去
arXivで発表された論文：調整された言語モデルはしばしば認識可能なAI的スタイルを示すが、その訓練後処理と内部表現との関連性は十分に理解されていない。この研究では、訓練後処理がAI的文体規則性を導入または増幅するかどうか、またこれらの規則性が局在化した表現を持つかどうかを調査している。
arXiv cs.LG
2026年6月1日
LLMが一貫して間違える方法を学ぶとき：合成的欺瞞の線形表現に関する複数モデル研究
モデルが正確な内部表現を保持しながら意図的に虚偽の出力を生成する欺瞞的アライメントは、AI安全性における中心的な課題として残っている。戦略的欺瞞は長期的な主要な懸念であるが、合成的不誠実さ（不正解への直接的な最適化を通じて誘発される）について研究している。
arXiv cs.LG
2026年6月1日
バランス型安全性アライメントのための設定可能なリワードモデル
arXiv:2605.30487v1。大規模言語モデル（LLM）を異種かつ急速に進化する安全性要件に整合させることは重大な課題。既存の命令チューニング型LLMとスタンドアローン安全性分類器は新しい安全性設定への一般化に失敗することが多く、外部的に設定可能なリワードモデル（RM）の必要性が生じている。
arXiv cs.CL
2026年6月1日
生成型AIにおける多元的アライメント評価フレームワーク
arXiv:2605.31021v1 現在の生成型AIのアライメント手法は、人間の判断の多様性を集計された統計的基準に縮約する単一的なベンチマーク枠組みに依存しており、文化的、人口統計学的、文脈的な評価のばらつきが見落とされている。本論文では、これらの違いを考慮したペルソナベースの評価フレームワークを提案する。
arXiv cs.AI
2026年6月1日
COMPASS: 安全な検索エージェントのための認知的MCTS誘導プロセスアライメント
LLM搭載の検索エージェントは多段階推論とツール使用を可能にしますが、これらの機能により検索誘発安全性低下をもたらします。有害な意図が一見無害な部分質問に分解され、安全でない結果につながる可能性があります。既存のアライメント手法は疎な安全性パターンの捕捉に苦労しています。
arXiv cs.AI
2026年6月2日
パラメータ整列は多言語エキスパート言語モデルにおける壊滅的忘却を軽減する
継続事前学習（CPT）は大規模言語モデルを新しい言語に拡張する実用的な方法ですが、ナイーブなファインチューニングは壊滅的忘却を通じて既存の能力を低下させます。言語ファミリー周辺のトレーニングを組織することはクロスランゲージ干渉を減らしますが、それだけでは十分ではありません。
arXiv cs.CL
2026年6月2日
一般化レイリー商最適化による基盤保護適応
ファインチューニングはファンデーションモデルを特殊化されたダウンストリームタスクに効果的に適応させますが、事前学習中に獲得した非対象の能力を低下させる可能性があります。既存の忘却認識方法は、通常、特殊な初期化または固定制約を通じて安全な更新を求めていますが、適応の規制は行いません。
arXiv cs.LG
2026年6月3日
Amazon Nova Forgeでのハイパーパラメータ最適化の技術と科学
ドメイン固有のタスク用のファインチューニングは、一つの領域でのパフォーマンス向上をモデルの一般的な能力の低下なしに実現することを意味しており、このバランスを正しく取ることは見た目以上に難しいものです。
AWS Machine Learning Blog
2026年6月4日
今年読んだ中で最高の交渉術の本を見つけました
「交渉とは自尊心、自己認識、そしてインポスター症候群との戦いがすべて一つになったものです」
Business Insider Japan
2026年6月8日
SafeGene: 転送可能な安全性アライメントのための再利用可能なアダプター
オープンウェイトLLMは、カスタマイズされたアシスタントへのファインチューニングが増加していますが、下流のファインチューニングにより安全性アライメントが弱まり、訓練データが意図的に有害でない場合でも、モデルが悪質なプロンプトに対して脆弱になる可能性があります。ターゲットモデルが新しいタスクデータやユーザーインタラクションで繰り返し更新されるため、反復的な安全性回復の問題が生じます。本論文では、各アーキテクチャ互換モデルファミリー内での横断的再利用のために設計された再利用可能な安全性アダプターモジュール「SafeGene」を提案します。安全性回復をモデル固有の修復ステップとして扱う代わりに、SafeGeneは安全性能力をタスク固有の更新から分離された独立した再利用可能なアダプター表現として扱います。この表現は、アラインされた-劣化したモデルの差分から取得され、データに対応したレイヤー選択を通じてタスク転送可能な安全性ベクトルに精密化され、各下流タスク適応モデルで少数ショットレイヤー単位の係数再キャリブレーションを通じて表現されます。
arXiv cs.AI
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月10日
自己蒸留におけるフィードバックアライメントの役割
自己蒸留は、モデルが追加コンテキストなしで性能向上を維持できるよう学習させる手法です。本研究では、自己蒸留におけるコンテキスト設計を、凍結された評価者からのフィードバックを用いて探求しました。ステップごとにアラインされた批評が最も大きな改善をもたらし、他の手法を大幅に上回る結果を示しました。
arXiv cs.LG
2026年6月10日
大規模言語モデルにおけるアライメントアルゴリズムのメカニズム解析
arXiv:2606.09850v1 公開タイプ: new 概要: 事後学習のアライメントアルゴリズムは、言語モデルの内部計算をどのように再構築するかを不明瞭にしたまま、ブラックボックスとして評価されることが大半です。本研究では、6つの選好最適化手法（PPO, DPO, SimPO, ORPO, GRPO, KTO）を3つのオープンウェイトモデルファミリーで横断的に比較し、体系的なメカニズム解析を行います。層ごとの線形プロービング、スパースオートエンコーダー、クロスコーダーを統合することで、選好表現を局在化させ、潜在空間におけるアライメント誘発性の幾何学的変換を定量化します。選好信号は一貫して早期～中期または中期～後期の層に集中するものの、異なる目的関数が表現上のシフトを質的に区別することを発見しました。KTOとGRPOは、建設的な特徴共有とスパースで高顕著性な募集を通じて線形分離性を向上させます。対照的に、DPOとORPOは、非建設的な幾何学的回転と特徴減衰を通じて分離性を低下させる一方、PPOとSimPOはベースラインの幾何学的構造をほぼ維持します。
arXiv cs.LG
2026年6月10日
KVキャッシュ量子化によるアライメント崩壊：診断と緩和
arXiv:2606.09864v1 新規発表論文要旨：キーバリュ（KV）キャッシュ量子化は、大規模言語モデル（LLM）の推論メモリを削減するために広く利用されていますが、既存の評価は、安全性への影響を評価することなく、パープレキシティと精度のみを測定することに焦点を当てています。本研究では、KVキャッシュ量子化下でのアライメント（整合性）の維持を探求します。11の命令チューニング済みモデル（3.8B-72B）と5つのベンチマーク（1,894プロンプト）にわたる調査で、低ビット量子化が安全なアライメントを静かに破壊しうることを発見しました。具体的には、Mistral-7Bはパープレキシティ1.03倍のわずかな増加で拒否率が15.2%失われ、普遍的な安全なビット幅は存在せず、標準的な指標では見えない鋭いモデル固有の位相遷移が見られました。根本原因は幾何学的なものであることを特定しました。安全機能は、パープレキシティの全体表現空間平均よりも10^2〜10^3倍量子化ノイズに弱い低次元アクティベーションサブスペースを占めています。
arXiv cs.LG
2026年6月10日
合成根拠データを用いた教師ありファインチューニングは、現実世界の疾患予測を損なう
arXiv:2606.10279v1 発表タイプ: new 要旨：合成根拠データを用いた教師ありファインチューニング（SFT）は、モデルに予測対象だけでなくその理由も教えることで、臨床予測タスクにおける言語モデルの性能を向上させると広く考えられている。我々は、この仮説を、長期的な健康履歴からの5年間のアルツハイマー病および関連認知症（ADRD）予測について検証する。504の構成における大規模な制御実験を通じて、根拠ベースのSFTは、ラベルのみのファインチューニングと比較して、予測性能を一貫して大幅に損なうことがわかった。この低下は、モデルファミリーやデータ規模にわたらず持続し、推論指向のベースモデルを使用しても解決されない。重要なのは、この失敗は根拠の質の低さでは説明されないことである。人間の専門家による注釈は、生成された根拠が医学的に正確であり、患者固有の証拠に忠実に根ざしていることを確認しており、Few-shot実験は、同じ根拠がトレーニングターゲットとしてではなく推論時のデモンストレーションとして使用された場合に性能を向上させることを示している。
arXiv cs.AI
2026年6月11日
大規模言語モデルのための互換性認識型動的ファインチューニング
arXiv:2606.11206v1 新規投稿概要：教師ありファインチューニング（SFT）は、大規模言語モデル（LLM）の調整における主要なパラダイムですが、最適化の不安定性と限定的な汎化性能に悩まされています。最近の研究では、この問題を病的な勾配スケーリングに起因するものとし、トークンレベルでそれを修正するために動的ファインチューニング（DFT）を提案しています。しかし、DFTはすべてのデモンストレーションが同等に適切な学習ターゲットであると仮定しますが、大規模な命令データセットの強い異質性により、デモンストレーションとポリシーの不一致がサンプルレベルで高分散の更新を引き起こすため、この仮定は破られます。本稿では、サンプルレベルの最適化分散を制御するDFTの原理的な拡張である、互換性認識型動的ファインチューニング（CADFT）を導入します。CADFTは、モデルの尤度から動的でポリシー依存の互換性信号を導出し、教師あり更新を調整して、互換性のないデモンストレーションからの高分散勾配を抑制します。
arXiv cs.CL
2026年6月12日
Amazon Bedrock Data Automationにおけるブループリント抽出精度の最適化
ブループリント命令の最適化は、この課題に直接対処するために抽出命令を自動的に洗練するBDA（Bedrock Data Automation）の機能です。期待される値を持つ3〜10個のサンプルドキュメントを提供すると、BDAは数分で、数週間ではなく、精度を向上させるためにブループリント命令を洗練します。個別のモデルファインチューニングは不要です。
AWS Machine Learning Blog
2026年6月16日
Nemotron 3 Ultra：エージェント推論のためのオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル
5500億の総パラメータと550億のアクティブパラメータを持つMixture-of-ExpertsハイブリッドMamba-Attention言語モデル「Nemotron 3 Ultra」を紹介します。Nemotron 3 Ultraは20兆トークンのテキストで事前学習され、その後コンテキスト長を100万トークンに拡張し、教師ありファインチューニング（SFT）、強化学習（RL）、マルチティーチャー・オンポリシー蒸留（MOPD）を用いて事後学習されました。Nemotron 3 Ultraは、LatentMoE、マルチトークン予測（MTP）、NVFP4事前学習、マルチ環境RLVR、MOPD、推論バジェット制御といった複数の主要技術を採用した、これまでにない最も高性能なモデルです。Nemotron 3 Ultraは、最先端の公開LLMと比較して最大約6倍高い推論スループットを達成しながら、同等の精度を実現しています。最先端の精度、高い推論スループット、100万トークンのコンテキスト長により、Nemotron 3 Ultraは長期間実行される自律エージェントタスクに最適です。
arXiv cs.CL
2026年6月16日
QPILOTS：フローポリシーのための効率的なテストタイムQステアリング
フローマッチングと拡散ポリシーは表現力豊かなアクションジェネレーターですが、時間差分強化学習（RL）での最適化は依然として困難です。効果的なポリシー抽出にはクリティックのアクション勾配を活用する必要がありますが、この信号をマルチステップのデノイジングプロセスを通じて直接逆伝播させると、数値的に不安定になる可能性があります。既存の方法では、勾配情報を破棄するか、ポリシーをより単純なワンステップアクターに蒸留するか、クリティックが改善するにつれてデノイジングポリシーを繰り返しファインチューニングすることで、この問題を回避しています。我々は、元のポリシーを変更せず、推論時にデノイジングプロセスをステアリングするQPILOTSという手法を提案します。各デノイジングステップで、クリティックの予測が信頼できないノイズの多い中間アクションでクリティックを評価する代わりに、まずその中間状態を最終的なクリーンアクションの推定値に投影し、そこでクリティック勾配を計算します。我々は2つのバリアントを導入します。
arXiv cs.LG
2026年6月16日
自然言語における任意の条件付きモデルの単純化
Causal Transformersは、同時分布の自己回帰的因数分解を通じてシーケンスをモデル化し、効率的な左から右へのデコーディングと条件付き尤度計算を可能にします。しかし、任意の条件（例：過去と未来のトークンに条件付けられたテキストブロック）からのサンプリングや評価を効率的に行うことはできません。最近の研究では、新しいアーキテクチャを通じてこの問題の解決を目指していますが、そのような条件のモデル化が最適でなく、生成結果が低下することがよくあります。我々は、標準的なCausal Transformersに簡単な変更を加えることで、単一のフォワードパス内で、過去、未来、混合コンテキストを含む任意の条件からの評価とサンプリングを可能にするArbitrary Conditionals GPT (AC-GPT)を提案します。先行研究とは異なり、我々の手法は、自然言語における高いパフォーマンスと効率的なトレーニングの両方に不可欠な、標準的な左から右への順序と次トークン予測の目的を維持します。重要なのは、この互換性により、既存のLLMを任意の条件付けのためにファインチューニングできることです。
arXiv cs.CL
2026年6月16日
GRASP：メモリ効率的なマルチソース学習のための勾配アラインメント逐次パラメータ転送
マルチソース転送学習は、根本的なスケーラビリティのボトルネックに直面しています。既存のアプローチでは、パラメータ融合中にすべてのK個のソースモデルを同時にメモリにロードする必要があり、O(K)のメモリを必要とするか、推論時にすべてのモデルをデプロイする必要があり、本番環境へのデプロイを不可能にしています。我々は、GRASP（Gradient-Aligned Sequential Parameter Transfer）を提案します。これは、3つの主要なイノベーションにより、O(1)のメモリ消費を維持しながら、優れた知識統合を実現します。(1)ソースを一度に1つずつ進化するターゲットモデルにマージする逐次処理。(2)最適化方向がターゲットドメインと一致するパラメータのみを選択的に転送し、ネガティブ転送を回避するパラメータごとの勾配アラインメント。(3)次のソースを統合する前に、転送された知識を適応させる反復ファインチューニング。
arXiv cs.LG
2026年6月18日
LoRAを超える：最も人気のあるファインチューニング技術に勝てるか？
LoRAは、大規模言語モデル（LLM）のファインチューニングにおける現在のデファクトスタンダードとなっています。しかし、より効率的で高性能な手法が登場しており、LoRAの支配に挑戦しています。この記事では、LoRAの仕組みと、それを超える可能性のある最先端のファインチューニング技術について探ります。
Hugging Face
2026年6月18日
より良い合成データを望むなら？アクティベーション・ステアリングで低リソース言語生成を誘導する
大規模言語モデル（LLM）は、特に低リソース言語において、合成データ生成の効果的なツールとなっています。生成されたデータは、下流タスクのパフォーマンスを向上させることができます。現在最も性能の高いアプローチは、通常、ターゲット言語の例を用いた少数ショットプロンプティングに依存していますが、これは推論コストを増加させ、語彙の固定化により多様性を低下させる可能性があります。本研究では、低リソース合成データ生成の代替手段としてアクティベーション・ステアリングを調査します。言語の言語的同一性をターゲットとする「言語ステアリング」と、人間が書いたテキストとバックトランスレーションされたテキストの表現を対比させることで、適切さを捉える「品質ステアリング」という2つのステアリング戦略を研究します。これらの手法を4つのオープンソースLLM、複数のレイヤー、およびタイプ論的に多様な11言語にわたって評価し、感情およびトピック分類データを生成し、より小さな分類器をファインチューニングしました。
arXiv cs.CL
2026年6月18日
CODEBLOCK：適切な粒度でのコード監視学習
コードLLMの教師ありファインチューニングでは、通常、すべての応答トークンに均一なクロスエントロピー損失を適用し、すべてのトークンが等しく有用な学習信号を提供するという暗黙の前提があります。最近のトークンレベル選択手法は、高価値トークンのみを監視することで、自然言語SFTにおけるこの前提に異議を唱えています。しかし、トークンレベルのマスキングをコードに直接転送すると、コードは構造的な完全性と定義-使用関係に依存するため、構文的および意味的に一貫したプログラムユニットが壊れる可能性があります。そこで、私たちは独立したトークンではなく、構造的に完全なコード証拠を選択する構造認識型スパース監視フレームワークであるCodeBlockを提案します。CodeBlockは、まず高品質な命令-応答ペアを選択し、次にコード応答を構文的に一貫したコーディングアイテムに分割し、コアロジックトークンに対する一般化クロスエントロピーを集計してその有用性を推定し、データフローの到達範囲とブリッジ信号で再ランク付けして、重要なプログラム依存関係を伝播または接続するブロックを優先します。
arXiv cs.LG