TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
fMRI からのシャムネットワーク自己教師学習による堅牢で課題不変の機能表現の学習
機能的磁気共鳴画像法（fMRI）は人間の脳機能を調査するための強力なツールである。しかし、データ取得の高コストと精神医学的評価尺度の本質的な主観性により、特に標的領域では、サンプルサイズが小さく、ラベル品質が可変のデータセットが生じることが多い。
arXiv cs.LG
2026年6月1日
ImmigrationQA：米国移民法向けのソースグラウンデッドデータセットと小規模モデル適応
米国移民法は数千ページの公式政策、連邦規制、手続きガイダンスで構成されており、法的代理人を持たない申請者にとって高いリスクを伴い、頻繁に変更されます。17,000件の質問回答を含むソースグラウンデッド型のImmigrationQAデータセットの構築について説明します。
arXiv cs.CL
2026年6月1日
idSCD：意味相関記述子を通じた訓練データセットの特定
arXiv:2605.30462v1 データセットは訓練中に誘発する偽の相関から認識できるでしょうか？本論では、データセットはモデルの学習した意味相関構造に、データセット固有のトレースを残すことを主張しています。つまり、データセット内では予測的であるが根本的なタスクに対して因果的ではない偶発的な規則性です。
arXiv cs.LG
2026年6月1日
研究文献で使用されるデータの監視と分類のためのAI
GoogleスカラーやSemantic Scholarなどのプラットフォームは学術論文の引用追跡を行っていますが、研究文献におけるデータセットの使用状況を監視するための同等のインフラストラクチャは存在せず、データ利用の状況がほぼ不透明なままになっています。このギャップに対処することは、透明性と再現性にとって重要です。
arXiv cs.CL
2026年6月1日
AISベース海事異常検出における教師なし学習の新規評価指標：MADQI
本論文は、自動識別システム（AIS）データセットの異常検出のための新しい体系的フレームワークを導入する。これらの異常には、速度、位置ジャンプ、時間差、旋回角に関連した異常な船舶行動が含まれる。Isolation Forestなどの教師なし学習アルゴリズムが利用されている。
arXiv cs.LG
2026年6月1日
クロスモデル局所等距離一貫性を経由したベクトルリンク
異なるブラックボックスエンコーダにより部分的に重複するデータセットから生成された2つの埋め込みクラウドが与えられた場合、ベクトルのみを使用してクロスモデルオブジェクト対応を復元するベクトルリンクの研究。独立して訓練された対照的エンコーダが局所幾何学的性質を示すことを実証および理論的に証明する。
arXiv cs.AI
2026年6月1日
DisjunctiveNet：微分可能凸最適化層を通じたニューラルシンボリック学習
arXiv:2605.30456v1 科学と工学の多くの学習タスクはスパースなデータセットが特徴であり、純粋なデータドリブンアプローチの有効性を制限しています。同時に、これらの問題には物理法則、運用要件、専門家の直感から導出された豊富なドメイン知識が伴うことが多くあります。
arXiv cs.LG
2026年6月1日
QASM-Eval：量子回路を超えたOpenQASM-3でのLLMの訓練と評価用データセット
量子コンピューティングはノイズの影響を受けやすいNISQ（ノイズを伴う中規模量子）の時代に留まっており、パフォーマンスが大きく制限されている。この制限に対処するには、ゲートシーケンス回路の仕様を超えたハードウェア対応機能（中回路測定と古典的フィードバックを含む）が必要な場合がある。
arXiv cs.LG
2026年6月2日
全国瞬時警報システム（Jアラート）全国一斉情報伝達試験延期のお知らせ
消防庁は全国瞬時警報システム（Jアラート）の全国一斉情報伝達試験の実施を延期すると発表した。 Jアラートは、地震や津波、有事の際に緊急情報を瞬時に全国に伝達するシステム。通常、年に複数回の定期試験が実施されており、放送局や自治体の防災無線を通じて国民に周知される。延期の具体的な理由や新たな実施予定日については、発表時点で明らかにされていない。同庁は今後、改めて試験実施の詳細について公表する予定としている。緊急情報システムの正常性確認は防災体制の重要な構成要素であり、試験延期が防災対応に与える影響についても注視される。（消防庁）
消防庁
2026年6月2日
内積を考慮した量子化：証明可能な高速、正確、適応的アルゴリズム
量子化はデータセット、ニューラルネットワーク重み、および様々な計算タスクのメモリ使用量を圧縮するための基本的なツールです。ベクトル量子化の多くの下流アプリケーションは任意の入力との内積を実行します。これにより内積対応量子化スキームの研究が動機づけられます。
arXiv cs.LG
2026年6月2日
InfoAtlas：統計的依存性推定のための基盤モデル
高次元確率変数間の統計的依存性を測定することはデータサイエンスと機械学習の基本的なタスクです。ニューラル相互情報（MI）推定器は有望な道を提供していますが、通常は新しいデータセットごとに高額な反復最適化が必要であり、実用的な応用が困難です。
arXiv cs.LG
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月4日
FundamentalのLarge Tabular Model NEXUSがAmazon SageMaker JumpStartで利用可能に
本記事では、Amazon SageMaker JumpStartでNEXUSの使い始め方を紹介し、デプロイプロセスについて説明し、エンタープライズデータセットに対して予測を実行する方法を実演します。
AWS Machine Learning Blog
2026年6月4日
Hugging Face CLIをエージェント向けに最適化された方法でHubを操作する設計
Hugging Faceは、同社のハブと連携するためのコマンドラインインターフェース（CLI）を、大規模言語モデル（LLM）などのエージェント向けに最適化する設計を進めていることを発表しました。この取り組みは、開発者がHugging Face Hubをより効率的に利用できるよう支援することを目的としています。既存のCLIは、すでに多くの開発者にとって重要なツールとして利用されていますが、今回の最適化により、LLMのようなAIエージェントがHub内のリソースとシームレスに連携できるよう機能が強化されます。これにより、エージェントがモデルやデータセットのアップロード、ダウンロード、管理などを自動的に行えるようになり、AI開発のプロセスがさらに効率化されることが期待されます。 Hugging Faceは、この新しいCLIが人間とエージェントの両方にとって使いやすい設計となるよう、機能性とアクセシビリティの向上に注力していると述べています。これにより、AIエージェントの活用が広がる中で、より多くのユーザーがHugging Face Hubの恩恵を受けられるようになります。引用元: Hugging Face
Hugging Face
2026年6月6日
「バーチャ」新作「VIRTUA FIGHTER CROSSROADS」はストーリーに注力！対戦格闘要素も重視(GAME Watch)
セガは配信番組「VIRTUA FIGHTER CROSSROADS SHOWCASE」にて、ファイティングアドベンチャーゲーム「VIRTUA FIGHTER CROSSROADS」の構成要素を発表し
Yahoo!ニュースエンタメ
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上
英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習（CPT）、教師あり微調整（SFT）、およびグループ相対方針最適化（GRPO）を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL
2026年6月8日
本当に確実ですか？シンボリック回帰における不確実性定量化の包括的かつ理解可能な調査
シンボリック回帰（SR）は、数学関数の空間を体系的に探索し、データセット内の基礎的な関係を正確に捉えるモデルを発見する手法のクラスです。この分野の最近の進展にもかかわらず、不確実性定量化（UQ）のサポート不足が現実世界の意思決定プロセスへの採用を制限しています。回帰分析では、UQはモデルの信頼性に関する重要な情報を提供し、データの不確実性を考慮することでオーバーフィッティングを回避し、意思決定に向けた洞察を提供するのに役立ちます。本調査は、この問題に初めて明確に対処するもので、シンボリック回帰におけるUQの本質的な概念を紹介し、現在の文献を頻度主義的、ベイズ的、モデル選択という3つの研究方向に広く分類してレビューしています。その重要性にもかかわらず、シンボリック回帰におけるUQはまだ十分に探索されていないため、シンボリック回帰のための信頼できるUQ手法の研究をさらに進めることが重要です。
arXiv cs.LG
2026年6月8日
対称性操作としての公平性を扱うことによるバイアスの検出と軽減
機械学習システムは高い経済的利害が関係する場面でしばしばバイアスを示す。本研究ではバイアスを対称性破れ操作として形式化し、分類器が敏感な属性を反事実的に切り替える操作の下で出力が不変であれば、その分類器は公平であると定義する。損失ベースの正則化を対称性復元メカニズムとして実装し、様々なレベルのノイズ、相関、バイアスを含む4つの合成データセット上で評価した。本フレームワークは90%以上の違反削減を達成し、精度低下は約5%である。このフレームワークは因果グラフの知識を必要とせず、計算量は少なく、ビット反転として定義可能な任意の敏感な属性に汎化可能であり、主流ベンチマークに欠落している局所的差別源が存在する文脈に適している。
arXiv cs.AI
2026年6月8日
言語モデルの失敗：確定的かつ持続的な推論失敗のトークンレベル特性
言語モデルの推論失敗は、推論トレース内で識別可能な特性を残す異なるプロセスを通じて発生する。本研究はトークンレベルの不確実性シグナルを使用してこれらの失敗を特性化し、経験的に区別可能な2つのプロセスから生じることを発見した。第1は確定的失敗で、モデルがトレース初期の不正な推論経路に固着する。中心的な診断特性は確定点であり、その先で追加のトークンを考慮すると失敗検出がむしろ悪化する。第2は持続的不確実性で、不確実性はトレース全体を通じて蓄積され、失敗と成功の完了を区別するには完全なトレースが必要となる。これらの特性は23のモデル-データセット構成で再現され、フレームワークの反証可能な予測は23例中20例で保持され、両方の失敗モードにおいて偶然を大きく上回る。最後に、自己一貫性への直接的な含意を示す失敗モードフレームワークを実証し、不確実性シグナルが補完するケースと選択的にスキップできるケースを特定する。これらの結果は、LLM推論失敗がいつ検出可能になるかを理解し、それに応じて検出戦略を適応させるための基礎を提供する。
arXiv cs.CL
2026年6月8日
人々がAIに本当に求めるもの：選好の多様性をマッピング
大規模言語モデル（LLM）は人間のフィードバックからの強化学習（RLHF）を通じて調整されることが多いが、この方法には既知の制限がある。75カ国のPRISMデータセットから1,500件の自由記述回答を分析した結果、異なる人々がAIシステムに異なるものを求めていることが判明した。ほとんどの価値観は回答者の4分の1未満から要望されており、例外は「真実性」で49%である。同じ言葉でも異なる意味が隠されており、「真実性」の定義は引用元のある主張を求める人、専門家意見を求める人、非主流意見を求める人など、潜在的に相容れない認識論的基盤を示している。人間らしさやAIの安全装置などの機能は物議を醸しており、肯定する人と拒否する人に分かれている。さらに、現在の二値比較では捉えられない状況的区別（デフォルトで行うべきことと「要求された場合」）を人々がよく使用することも判明した。これらの知見は、現在の整合化実務における根本的な問題を明らかにしており、単一の報酬モデルでは複数の定義の「真実性」を捉えることができず、このような現象は認識論的暴力と特徴付けられている。
arXiv cs.CL
2026年6月8日
CrowdMath: クラウドソーシングされた数学研究討論のデータセット
大規模言語モデルは数学的推論において大きな進展を遂げていますが、既存のベンチマークは最終答案、段階的な解法、または完全な証明といった確定的な問題を評価するのが一般的です。本研究は、参加者が部分的な議論を提案し、先行する段階の不備を特定し、不完全な推論を修正し、段階的な貢献を徐々に統合していくという、協調的なオープン問題解決のプロセスをとらえた新しいデータセット「CrowdMath」を紹介します。これはMIT PRIMES--Art of Problem Solving (AoPS) CrowdMathプログラム(2016-2025)から164個の専門家による注釈付きの進捗チェーンで構成されており、その討論は査読済み論文に至っています。各チェーンはオープン問題の陳述から完成した証明まで、複数の参加者によるフォーラム討論の過程を追跡しています。投稿は部分的進捗、証明の完成、誤った推論、誤りの特定を含む、進化する解答プロセスにおける機能的役割によってラベル付けされています。
arXiv cs.AI
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月10日
EEVEE：自己改善エージェントのための実世界におけるテスト時プロンプト学習に向けて
本論文では、LLMエージェント向けのマルチデータセット対応テスト時プロンプト学習フレームワーク「EEVEE」を提案します。これは、実世界のタスクストリーム下でのテスト時プロンプト学習を可能にする初の試みです。 EEVEEは、クロスデータセット干渉を軽減するため、入力データをタスククラスターに分割し、適切なプロンプト設定に割り当てるルーターを導入しています。
arXiv cs.LG
2026年6月10日
ミニマリスト遺伝的プログラミング
遺伝的プログラミング（GP）は、学習タスクはプログラム誘導問題として捉え、構文木で表現される階層的シンボルモデルを構築することを目的とする。また、このタスクを探索問題として捉え、進化によって目的のモデルを見つける。GPは様々なタスクで成果を上げてきた。本研究では、GPの2番目の洞察を修正し、構文的導出タスクとして問題を捉える代替案を提示する。特に、ミニマリスト遺伝的プログラミング（MGP）アルゴリズムは、GPと同様に生物学的着想を得ているが、進化の代わりに、構文が2つの他の精神システムの関連付け問題に対する最適な解決策として理解されるミニマリスト・プログラムから着想を得ている。ミニマリズムでは、コア計算プロセスはMERGEと呼ばれる二項集合形成演算子であり、単純なマルコフ的プロセスを用いて複雑な構文構造を段階的に構築できる。MGPはシンボル表現のコア構成要素を発見し、MERGEを用いて段階的に結合することができる。提案システムは、標準GPシステムではブロート（冗長化）の傾向により解決が困難とされるシンボル回帰タスクでベンチマークされている。
arXiv cs.AI
2026年6月10日
LLMを識別器として利用：合成テーブルでもリアルに見える場合
arXiv:2606.09865v1 新規発表プライバシーとデータ共有はしばしば緊張関係にあります。多くの組織は、プライバシーリスクを軽減しつつ有用なデータを共有するために、合成データを使用しています。表形式データの場合、プライバシーの監査は依然として困難です。多くの場合、人間でさえテーブルが本物か合成かを見分けることは容易ではありません。本稿では、LLM（大規模言語モデル）の識別に基づく手法を提案します。LLMに各テーブルサンプルをREAL（本物）またはSYNTHETIC（合成）に分類させます。テーブルのみのC1設定と、テーブルおよび分布メタデータを含むC2設定の2つの設定でテストします。オープンモデルとしてLLaMAを、参照モデルとしてGeminiを使用します。実験では、2つの公開データセット（UCI AdultおよびACS Census）で3つの合成モデル（CTGAN、TVAE、Gaussian Copula）を実行しました。451件の有効な試行を収集しました。結果は、モデル間に明確な違いがあることを示しています。
arXiv cs.LG
2026年6月11日
社会科学: 低・中所得国におけるオンラインでの子どもの性的搾取・虐待(Nature)
今回、子どもの性的搾取・虐待（CSEA）に関して、複数の低・中所得国で得られた初めての全国代表データセットにより、CSEAの助長において、テクノロジー、個人、家族、社会文化的要因が果たす役割が明らかにされている。
Nature 日本語
2026年6月11日
Claude Fableは基本的な生物学の質問に答えない
人工知能開発企業Anthropicは、最新のAIモデル「Claude Fable 5」を発表しました。同社はこのモデルをこれまでで最も強力なAIと位置づけ、特に生物学分野における高いスキルを強調しています。しかし、実際にこのモデルの性能を検証したところ、高校生レベルの基本的な生物学の質問に答えることができないケースが複数確認されました。例えば、細胞の主要な構成要素や光合成の基本的なプロセスといった、基礎的な知識に関する質問に対して適切な回答を生成できないといった事象が報告されています。 Anthropicが謳う生物学スキルの高さと、実際の性能との間に乖離が見られる形です。最新AIモデルの進化が期待される一方で、その能力を評価する際には、宣伝文句だけでなく実証的な検証が重要であることを示唆しています。今後のモデル改善や、より詳細な性能評価が求められるでしょう。引用元: The Verge AI
The Verge AI
2026年6月11日
一つの脱獄、多様な言語：多言語脱獄検知のための言語非依存型意図表現の学習
arXiv:2606.11202v1 発表タイプ: new 概要: 大規模言語モデル（LLM）は、グローバルな多言語ユーザー向けのアプリケーションにますます導入されていますが、安全トレーニングは依然として主要言語に集中しており、多言語機能の進化と並行して進んでいません。これにより、脱獄攻撃に悪用可能なギャップが生じています。現在の脱獄防御策は、主に主要言語で開発・評価されており、その有効性は、整合性の取れた多言語監視の不足や、言語のバリエーションによる表現の分散によって制限されています。この問題に対処するため、多言語ロバスト性とクロスリンガル汎化の両方を改善するために設計された多言語脱獄検知フレームワーク「MLJailDe」を提案します。MLJailDeはまず、多言語バックトランスレーションデータ拡張アルゴリズムを導入し、11言語にまたがる、意味的に一貫性があり、機能的に効果的なデータセット（2,232の正常サンプルと1,239の脱獄サンプルで構成）を構築します。
arXiv cs.CL
2026年6月11日
明示的要素から暗黙的意図へ：監査可能な行動推論のための事前定義ライブラリ
arXiv:2606.11207v1 新規発表。SemantiCleanは、Eコマースセッションデータから構造化されたセマンティック信号を抽出し、共有要素ライブラリを通じて購入意図、顧客セグメンテーション、商品親和性などのプラグ可能な推論ターゲットを駆動するモジュラーフレームワークです。従来の精度のみを最適化するエンドツーエンド予測子とは異なり、SemantiCleanは監査可能性、構造的ガバナンス、sigma=0再現性を優先し、要素レベルの透明性と正当な決定トレイルのためにわずかな予測ゲインを明示的にトレードオフします。Online Shoppers Purchasing Intention (OSPI) データセットに基づき、このフレームワークは24の行動要素を4層アーキテクチャ（機能、インタラクション、システム、コンテキスト）に整理し、3つのアンチインフレーションメカニズム（RedundancyGroup貢献キャップ、TieredPenaltyCalculatorバイアスペナルティ、AdaptiveConstraintModeコールドスタート保護）を通じて信号品質を強制します。
arXiv cs.AI