TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習
強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック（数学やコード実行など）のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
「落ちずに自力で戻った」女子高生殺害で内田梨瑚被告―旭川地裁
北海道の旭川地裁で進行中の女子高生殺害事件の公判で、被告人・内田梨瑚氏が「落ちずに自力で戻った」と供述し、検察側の主張と対立しています。物理的証拠が限定的な事件では、被告人の供述が有罪・無罪の判断を左右する重要な要素となるため、この供述が医学的・物理的に検証可能なのかが焦点となります。冤罪リスクを減らすには、客観的証拠、証人の信用性評価、法医学的知見の三点が重要であり、これらが「合理的疑いを超える立証」に到達するかが問われています。
時事通信
2026年6月1日
大規模言語モデルの不確実性における人間的整合性、キャリブレーション、活性化パターン
arXiv:2605.30675v1 不確実性定量化は大規模言語モデルの行動分析における大規模で成長するサブフィールドである。主にハルシネーション認識および対策のため、このフィールドは不確実性判断のタスク有効性への精度であるキャリブレーションの測定と改善に主に焦点を当ててきた。本研究では、
arXiv cs.CL
2026年6月1日
レアイベントの因果経路の形式化と反証
構造方程式モデルにおけるレアイベント（外れ値）の根本原因分析の最近の形式化に基づいて、因果経路の正式な定義を提案し、その検証可能な含意について議論します。これらの含意が因果抽象化定義のみに依存する条件を特定しています。
arXiv cs.AI
2026年6月1日
キャリブレーション済み選好学習：ラベルランキングの場合
キャリブレーション（予測確率と真の結果頻度の整合）は信頼できる意思決定に不可欠である。分類と回帰で広く研究されている一方、確率的ラベルランキングにおけるキャリブレーションはまだ正式に取り組まれていない。ここで目標は分布を予測することである。
arXiv cs.LG
2026年6月1日
機械的解釈可能性によるディック経路上のゼータ写像アルゴリズムの発見
arXiv:2605.30482v1 機械学習は数学的発見にますます利用されているが、数学では出力は予測そのものではなく、独立して検証可能な明示的な構築であることが求められる。本研究では組合せ論における古典的な全単射であるディック経路上のゼータ写像を通じてこの設定を研究する。
arXiv cs.LG
2026年6月1日
構造認識報酬による深い研究のためのプランナー中心強化学習
深い研究タスクではLLMが調査対象を計画し、エビデンスを検索し、複数の調査分野にわたって長文の回答を合成する必要がある。既存の訓練パラダイムは短文の検証可能なQAをプロキシとして依存するか、モノリシックな長軌跡を最適化するかのいずれかであり、計画と実行が困難である。
arXiv cs.AI
2026年6月1日
Leanの定理証明のためのLLMフィードバック蒸留
推論モデルのポストトレーニングは通常、検証可能な報酬からの教師あり微調整と強化学習を組み合わせ、最も一般的にはGRPOで行われている。しかしこのアルゴリズムは報酬の疎さ、限定的な探索、モード崩壊に悩まされている。自己蒸留に関する最近の研究に基づき、改善されたアプローチを提案する。
arXiv cs.AI
2026年6月2日
CAST:GRPOのための非特権化クリップ付き非対称セルフティーチングとアドバンテージ反転
検証可能な報酬を用いた強化学習(RLVR)、特にグループ相対方針最適化(GRPO)は、大規模言語モデルの推論を改善するために広く使用されています。しかし、結果レベルの報酬は疎な教示のみを提供し、サンプリングされた軌跡がすべて同じ結果を得た場合、グループ相対アドバンテージは消失します。
arXiv cs.AI
2026年6月2日
SDR：放射線科レポート生成のための設定距離報酬
arXiv:2606.00440v1 発表タイプ：新規概要：検証可能な報酬による強化学習は、ビジョン言語モデルの推論を急速に進歩させています。ただし、胸部X線レポート生成の場合、標準的な報酬（正確一致精度およびステップレベルのプロセス）は、レポートが順序付けされていない直交的な検査結果で構成されているため、互換性がありません。
arXiv cs.AI
2026年6月4日
AIがAIを作る時代の到来か──Anthropicが示す「再帰的自己改善」の実態とリスク
Anthropicは、AIが自ら開発を担う「再帰的自己改善」に関する考察を公開した。社内コードの8割以上をClaudeが執筆するなど自動化が進む現状を明かす一方、制御不能に陥るリスクを警告。他社と検証可能な形で開発を減速・一時停止できる国際協調体制の構築と、選択肢を持つべきだと提唱している。
ITmedia AI+
2026年6月8日
SafeGene: 転送可能な安全性アライメントのための再利用可能なアダプター
オープンウェイトLLMは、カスタマイズされたアシスタントへのファインチューニングが増加していますが、下流のファインチューニングにより安全性アライメントが弱まり、訓練データが意図的に有害でない場合でも、モデルが悪質なプロンプトに対して脆弱になる可能性があります。ターゲットモデルが新しいタスクデータやユーザーインタラクションで繰り返し更新されるため、反復的な安全性回復の問題が生じます。本論文では、各アーキテクチャ互換モデルファミリー内での横断的再利用のために設計された再利用可能な安全性アダプターモジュール「SafeGene」を提案します。安全性回復をモデル固有の修復ステップとして扱う代わりに、SafeGeneは安全性能力をタスク固有の更新から分離された独立した再利用可能なアダプター表現として扱います。この表現は、アラインされた-劣化したモデルの差分から取得され、データに対応したレイヤー選択を通じてタスク転送可能な安全性ベクトルに精密化され、各下流タスク適応モデルで少数ショットレイヤー単位の係数再キャリブレーションを通じて表現されます。
arXiv cs.AI
2026年6月8日
テラヘルツ双櫛分光法を用いたポリマー分類のための多スケール特徴注意ネットワーク
リサイクルプラスチックの品質と安全性を確保するためのポリマー識別は重要だが、従来の分別および分光技術は堅牢な判別をもたらすのに苦労している。テラヘルツ双櫛分光法（THz-DCS）は、迅速で高解像度かつ非破壊測定を提供する有望な代替手段となる。本研究では、THz-DCSを利用して純粋なポリマー、多層フィルム、商用ブレンド、およびバイオポリマーを含む12種類のポリマーを分類する。これらのスペクトル信号の複雑性に対処するため、THz-DCSデータ向けに設計された新しいディープラーニングアーキテクチャである多スケール特徴注意ネットワーク（MSFAN）を提案する。このフレームワークは信号再キャリブレーション用の特徴ゲーティングと多様な周波数パターンを捉えるための多スケール並列畳み込みを統合している。これらの特徴は交差特徴注意と注意プーリングを通じてさらに洗練され、モデルが最も有用なテラヘルツ領域を本質的に強調することを可能にする。MSFANは最先端モデルを一貫して上回り、85.2%の分類精度に達する。
arXiv cs.LG
2026年6月10日
勾配ブースティングと分布フリーカバレッジを用いた非アルコール性脂肪性肝疾患のリスク予測
arXiv:2606.09860v1 発表タイプ: new 概要: 非アルコール性脂肪性肝疾患（NAFLD）は世界中の成人の約25%に影響を与え、肝臓および心血管系に重大なリスクをもたらします。しかし、集団レベルでのスクリーニングツールは依然として不十分です。我々は、勾配ブースト決定木とコンフォーマル予測を組み合わせたNAFLDリスク予測のための機械学習フレームワークであるMethodを提案します。これにより、個々のリスク推定値に対して、キャリブレーションされた、分布フリーのカバレッジ保証が得られます。Methodは、相互情報量に基づく安定性選択手順を統合し、ブートストラップリサンプリングを通じて、コンパクトで臨床的に解釈可能な特徴サブセットを特定します。これにより、ユーザー指定の信頼水準を証明可能に超える周辺カバレッジを持つ予測セットを構築します。我々は、広州、中国の多施設コホート（主解析n=2,187、外部検証n=412）で、人口統計、代謝バイオマーカー、ライフスタイル要因にわたる78の候補特徴量を使用してMethodを評価しました。
arXiv cs.LG
2026年6月11日
ProcessThinker：ロールアウトベースのプロセス報酬によるマルチモーダル大規模言語モデルの推論能力強化
arXiv:2606.11209v1 新規発表要旨：ビジュアル質問応答は、ますます多段階の推論を必要としています。検証可能な報酬（RLVR）とグループ相対ポリシー最適化（GRPO）を用いた近年の強化学習による事後学習は、マルチモーダル推論を改善できますが、ほとんどのアプローチは、結果のみの疎な報酬に依存しています。その結果、不正解が推論の終盤の小さな間違いに起因するのか、それとも最初から役に立たない推論経路に起因するのかを判断するのが困難です。一般的な解決策は、ステップレベルの監督のためにプロセス報酬モデル（PRM）をトレーニングすることですが、これには通常、大規模で高品質な思考連鎖の注釈と追加のトレーニングコストが必要です。本研究では、明示的なPRMをトレーニングすることなく、ステップレベルのプロセス報酬を提供する実用的な事後学習パイプラインであるProcessThinkerを提案します。
arXiv cs.CL
2026年6月15日
英国、フランス、ドイツ、イランの関連制裁解除を表明
英国、フランス、ドイツ、イタリアの首脳による共同声明で、「イランが核開発計画で明確かつ検証可能な措置を取った場合、関連制裁を解除する用意がある」と述べた。
Bloomberg
2026年6月16日
CoRA：信頼性の高い思考連鎖推論のための信頼度と根拠の整合性
思考連鎖（CoT）推論はLLMのパフォーマンスを向上させることができますが、CoTの根拠がもっともらしくても不完全または十分に裏付けられていない場合、高い回答信頼度は誤解を招く可能性があります。本研究では、モデルがコミットした回答に対する信頼度が、生成された根拠によって正当化されるかどうか、すなわち信頼度と根拠の整合性について調査します。回答の正しさ、コミットされた回答の確率、およびルーブリック（評価基準）に基づく根拠のサポートを共同で評価するGRPOベースの強化学習フレームワークを導入しました。このルーブリックは、正解を明かさずに、根拠のグラウンディング（根拠付け）、一貫性、タスクへの適合性、および選択された回答との関連性を評価します。MedQA、MathQA、OpenBookQAの3つのオープンウェイトLLMを用いた実験では、本手法は、チューニングされていないチェックポイント、SFT、および正しさのみを重視するGRPOと比較して、信頼度と根拠の整合性エラーを最大26.51%削減し、競争力のある精度を維持しつつ、しばしばキャリブレーション（校正）を改善しました。
arXiv cs.CL
2026年6月16日
PhoneHarness：GUI、CLI、ツールアクションを組み合わせた電話エージェントの活用
電話エージェントは、単に次の画面アクションを予測するだけでなく、実際のモバイルワークフローを完了することが期待されるようになっています。しかし、現在のモバイルエージェントに関する文献の多くは、エージェントを主にGUIコントローラーとして評価しており、画面を監視し、タップやスワイプを実行し、ターゲットアプリの状態によってスコアリングされます。実際の電話使用タスクはより広範であり、アプリGUI、デバイスサイドコマンド、または構造化ツールの使用時期を判断し、意図した副作用が実際に発生したことを示す証拠を残す必要があります。本稿では、検証可能なモバイルワークフローで電話使用エージェントを研究するための、混合アクションベンチマークおよび実行ハーネスであるPhoneHarnessを紹介します。PhoneHarnessは、GUI、CLI、およびホストサイドツールアクションを介してデバイスサイドのエージェントループを実行し、決定論的なアクションルーティングと、境界のあるGUI委任、監査可能な実行トレースを組み合わせています。
arXiv cs.CL
2026年6月17日
薬物警戒における因果推論におけるモデル選択の重要性：InferBERTフレームワーク内での分類モデルの比較分析
因果関係のある有害薬物事象（ADE）を偽相関から区別することは、薬物警戒における中心的な課題です。InferBERTフレームワークは、TransformerモデルとDo-calculusを統合していますが、その成功は基盤となる分類モデルに依存します。本研究では、InferBERTにおけるモデル選択の影響を評価し、単純なモデルで十分か、ドメイン固有の事前学習が役立つか、LLMへのスケーリングが因果検出を改善するか、事後キャリブレーションの効果を検証します。分析対象は、Analgesics-induced Acute Liver Failure (AILF) と Tramadol-related Mortalities (TRAM) の2つのベンチマークです。XGBoost（ベースライン）、ALBERT（元のInferBERT）、BioBERT（生物医学Transformer）、Med-LLaMA（医療LLM）の4つのモデルを、20回の繰り返しで5分割交差検証を用いて評価しました。
arXiv cs.LG
2026年6月19日
分布シフト下におけるキャリブレーションされた混合エキスパートモデルに向けて
新しい研究が、混合エキスパート（MoE）モデルがデータ分布の変化、いわゆる分布シフトの状況下でどのように機能するかを詳細に分析しました。この研究は、特にモデルが情報をどのように振り分けるか（ルーティングメカニズム）と、個々の専門家（エキスパート）の出力がどれほど正確に確率を表現しているか（キャリブレーション）の相互作用に焦点を当てています。分析の結果、MoEモデルにおいて、特定のルーティング方法（ハードルーティング）が用いられている場合、広範囲な分布シフトがあっても個々のエキスパートが適切にキャリブレーションされていれば、モデル全体のキャリブレーションも保たれることが示されました。しかし、別のルーティング方法（ソフトルーティング）の場合には、個々のエキスパートのキャリブレーションだけでは不十分であることが明らかになりました。この課題に対応するため、研究者たちは「敵対的再重み付け」という手法を提案しています。これは、分布シフトが生じた際に、ルーティングされた情報の集約におけるキャリブレーション誤差に対してペナルティを課すことで、モデル全体の信頼性を向上させることを目指しています。引用元: arXiv cs.AI
arXiv cs.AI
2026年6月19日
最適な決定論的多重キャリブレーションと全予測
新しい研究により、機械学習における予測器の信頼性に関する長年の課題が解決されました。arXiv cs.LGに掲載された本研究は、決定論的な多重キャリブレーションアルゴリズムを提案し、そのアルゴリズムが最小最大最適性を達成することを実証しています。これまで決定論的予測器は、そのサンプル複雑性において確率的予測器に大きく劣ると考えられていました。しかし、今回の研究で提示された新しいアルゴリズムは、決定論的予測器が確率的予測器と同等の最適性を実現できることを示しました。これは、信頼性の高い機械学習モデルの構築において重要な進展となります。この成果は、予測の精度だけでなく、その予測がどれほど信頼できるかという「キャリブレーション」の分野における画期的な発見です。特に、AIの意思決定が社会に与える影響が大きくなる中で、その予測がどの程度信頼できるかを明確にすることは極めて重要です。本研究は、この信頼性向上に大きく貢献するものと期待されます。引用元: arXiv cs.LG
arXiv cs.LG
2026年6月19日
因果帰属によるプルーニングで大規模言語モデルの推論性能を維持
大規模言語モデル（LLM）は多段階推論に優れているが、推論コストが大きい。本研究では、因果帰属プルーニング（CAP）を提案する。これは、推論タスクに対する因果的影響を測定することで重要なアテンションヘッドを特定し、これらのヘッドレベルのスコアを用いてきめ細やかな重みプルーニングをガイドする、トレーニング不要な手法である。CAPは、各アテンションヘッドについて、少数の推論問題のキャリブレーションセットでのフォワードパス中にヘッドをマスクした場合の期待される性能低下を推定する。これらの因果スコアは、対応する射影行列の重みレベルの重要度値に変換される。マグニチュードのみまたは活性化ベースの基準とは異なり、CAPの介入的測定は各ヘッドの機能的貢献を直接捉え、20%のスパース性でARC-ChallengeにおいてWandaと比較して最大61%の相対的な精度向上をもたらす。Llama-3-8B-InstructおよびMistral-7B-Instructを使用し、10%、20%、50%のスパース性でGSM8K、StrategyQA、ARC-ChallengeでCAPを評価した。
arXiv cs.CL
2026年6月19日
INNOCN、5万円台で買える27型4Kクリエイター向けモニター
INNOCNは6月18日、Delta E 2未満の工場出荷時キャリブレーションに対応したクリエイターおよびビジネス向け27型4Kモニター「CB27U1」を発売した。
PC Watch
2026年6月22日
[ITmedia PC USER] カラーマネジメントツール「Datacolor Spyder」がタイムセールで15％オフの2万7879円に
Amazon.co.jpで、ディスプレイの色精度を向上させるカラーマネジメントツールのタイムセールが実施されている。わずか90秒で正確なキャリブレーションが行え、写真や映像の編集作業に適したアイテムだ。
ITmedia 全カテゴリ
2026年6月24日
物理制約付きMCMCと化学情報付きガウス過程のシナジーによる反応ネットワーク発見
離散的な反応トポロジーと連続的な速度論的パラメータが密接に結合しているため、スパースでノイズの多い化学時系列データから解釈可能な支配方程式を抽出することは依然として困難です。本稿では、スパイクアンドスラブトポロジーサンプリング、ハード保存および熱力学スクリーニング、そしてパラメータキャリブレーションおよび実験設計のための化学情報付きガウス過程（CIGP）残差モデルを組み合わせた、再現可能なグレイボックスワークフローであるPC-MCMC-CIGPを提案します。方法論的な貢献は、単独の新しいMCMCまたはGPファミリではなく、むしろこれらのコンポーネントを明示的な不確実性認識型取得選択を備えた物理制約付きワークフローに統合することです。H2 + Br2ベンチマークでは、制約付きサンプラーは実験において、欺瞞的な現象論的適合から素ラジカル経路を区別します。スチレンのエポキシ化では、CIGP最適化ループは報告されたGP-BOベースラインと比較して最終収率を12.5%向上させます。
arXiv cs.LG
2026年6月25日
汎用推論のための転移学習：マルチドメインRLVR向け自動カリキュラム
検証可能な報酬付き強化学習（RLVR）が、単一ドメインのトレーニングから、数学、プログラミング、科学にまたがるマルチドメイン推論スイートへと拡張されました。しかし、推論スキルのドメイン間での転移は不均一であるにもかかわらず、トレーニングカリキュラム（各ドメインがサンプリングされる頻度）は通常固定または手動調整されています。既存の学習可能性ベースのカリキュラムは、ポリシーが現在改善されている場所に適応しますが、選択されたドメインでの勾配ステップが残りのドメインに利益をもたらすかどうかには盲目です。本稿では、BanditスタイルのオンラインカリキュラムであるTransfer-Aware Curriculum（TAC）を提案します。これは、更新がトレーニングスイートの残りに広く利益をもたらすドメインを優先します。TACは、RLトレーニングによって既に生成されているシグナルを再利用します。
arXiv cs.AI
2026年6月26日
COrigami：平坦に折り畳める、認識可能なオリガミを共創するAIパイプライン
生成AIは検証可能な解を持つ問題解決で目覚ましい成功を収めていますが、厳密な幾何学的制約と主観的な美的感覚の両方を満たす物理的なアートの生成は依然として課題です。本稿では、計算オリガミの領域におけるこれらの困難に取り組むアプローチを提示します。計算オリガミは、数理的に厳密な環境であり、芸術的デザインを平坦折り畳み可能性の数式内に位置づけます。本稿では、自然言語から折り目パターンを生成することでデザインサイクルを支援する、エンドツーエンドのAI駆動パイプラインであるCOrigamiを紹介します。このパイプラインは、セマンティックな棒人間生成、ベースパッキング計算、平坦折り畳み可能な折り目パターンの解決、平坦に折り畳まれた折り目パターンの整形、そして自律的な美的評価ループによって駆動される強化学習を用いた生成モデルの改良を含みます。本システムは、人間のアーティストがさらに発展させ、整形できる構造的な出発点を生成する、非常に効果的な共同アシスタントとして機能します。
arXiv cs.AI
2026年6月29日
MER-R1：Slow-Fast思考のシナジーによるマルチモーダル感情推論
明示的な推論は、予測の解釈可能性を高めるものの、必ずしもマルチモーダル感情認識（MER）の精度向上に結びつかないことがわかりました。具体的には、推論ベースのMLLMにおいて、熟慮的な推論後の「遅い思考」よりも、直接的な回答をトリガーする「速い思考」の方がしばしば優れた性能を発揮します。経験的な分析により、「速い思考」はより広範で自信のある予測によりリコールを改善する一方、「遅い思考」は不正確なカテゴリの保守的なフィルタリングを通じて精度を優先することが示されました。これらの洞察に基づき、我々はSlow-Fastの相補性を明示的な最適化に転換する強化学習フレームワークMER-R1を提案します。デュアルオブジェクトの分離により、リコールと精度を2つの最適化信号に分離し、互いにトレードオフされるのではなく、共同で最適化できるようにします。Slow-Fastの信頼度キャリブレーションは、最終的な「遅い思考」の回答を「速い思考」の直感にさらに一致させ、正しい感情を強化しながら不正確な感情を抑制します。
arXiv cs.AI
2026年6月29日
Odyssey：検証可能でローカルな真実保持型基盤モデルの構築
「ODYSSEY」と名付けたカテゴリー論的フレームワークを提案します。これは、ファウンドリ（局所的な文脈、局所表現ファミリー、制限写像、結合規則、妨害ポリシー、更新義務、人間向けビューを指定する構成要素）の合成によって、検証可能でローカルな真実保持型基盤モデルを構築するためのものです。ファウンドリは、議論コンポーネントを内包する知識の編成された束です。具体的なファウンドリは、証拠/議論、運用上の決定、制度/金融、市場の定義、科学的挑戦、研究プログラム、アシスタント構築、評価ハーネスといった汎用ファウンドリから構築されます。Universal Foundry Learning (UFL) は、左・右カン拡張の合成としてファウンドリ構築を形式化します。左カン拡張は局所的アーティファクトを候補ファウンドリにロールインし、右カン拡張は昇格に必要な制限、結合、妨害、議論の条件を強制します。
arXiv cs.AI