TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年6月1日
ナレッジグラフ強化ゼロショット・トピック分類：複数戦略の比較研究
arXiv:2605.30465v1。ラベル付き訓練データなしでの多ラベル・トピック分類は困難な課題であり、特に複雑な関係情報を含む文書の場合。記事ごとのナレッジグラフ拡張がどのように分類に影響するかを体系的に調査したゼロショット多ラベル・トピック分類フレームワークを提示。
arXiv cs.CL
2026年6月6日
多語表現分類における監督学習と文脈内学習の比較：トルコ語軽動詞構文を対象
トルコ語の言語処理技術に関する研究が、自然言語処理分野で注目を集めている。トルコ語に特有の「軽動詞構文」と呼ばれる表現は、文法上は通常の動詞と目的語の組み合わせに見えながら、実際には慣用句として機能するため、従来のAI言語モデルにとって識別が困難だった。研究では、BERTurkという専用モデルと、ChatGPTなどの大規模言語モデルの性能を比較検証した。結果として、事前学習なしのゼロショット学習では、大規模言語モデルは誤検出を抑える傾向を示したものの、対象の表現を見落とす傾向が見られた。一方、単一の例を学習するワンショット学習では検出精度が向上したが、モデルが特定のパターンに過度に反応するバイアスが生じる課題が明らかになった。この知見は、多言語自然言語処理システムの開発や、言語特性に応じた最適なAI手法の選択に有用な情報となる見込みだ。（arXiv cs.CL）
arXiv cs.CL
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月10日
時系列を言語として捉える：汎用時系列基盤モデルのためのユニバーサル・トークナイザー
arXiv:2606.09861v1 新規発表要旨：次トークン予測（NTP）はLLMの事前学習を統一してきたが、その応用は無限で連続的な時系列（TS）には未解決のままでした。このギャップを埋めるため、TSを離散トークンに変換するユニバーサル・トークナイザーUniTokと、これらのトークン上でNTPにより事前学習された基盤モデルUniTok-FMを提案します。UniTok-FMは、ゼロショットおよびプロンプト強化型予測、さらに訓練不要のインコンテキスト推論による少数ショット生成・分類をサポートする汎用基盤モデルであり、これは先行研究では達成されていませんでした。技術的には、UniTokはスケール安定化のためのプレフィックス正規化、エンコード・デコードのための段階的解像度因果アーキテクチャ、および学習のための構造保存型再構築損失を組み込んだベクトル量子化オートエンコーダーです。UniTok-FMは、TS固有の修正なしに市販のLLMアーキテクチャを採用しています。
arXiv cs.LG
2026年6月11日
安全データシートからの情報抽出における大規模言語モデルのベンチマーク
安全データシート（SDS）からの構造化情報の正確な抽出は、文書形式の多様性や従来のルールベース手法の限界から、産業安全分野では依然として課題となっています。本研究では、自動SDSデータ抽出のための最新の大規模言語モデル（LLM）をベンチマークし、テキストベースおよびマルチモーダル処理パイプラインを比較します。Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70Bの4つのモデルを、ゼロショット、フューショット、連鎖思考（Chain-of-Thought）の3つのプロンプト戦略で体系的に評価しました。評価フレームワークでは、50,000以上の抽出データフィールドにわたる精度、レイテンシ、コストを評価しました。結果として、テキストベースの抽出は、すべての指標においてマルチモーダル処理を常に上回ることが示されました。Chain-of-Thoughtプロンプトと組み合わせたGemini 1.5 Proが最高の精度（84%）を達成し、GPT-4o（81%）とClaude 3.7 Sonnet（79%）を上回りました。
arXiv cs.CL
2026年6月16日
意味拡張検索拡張時系列予測
時系列予測モデルは、しばしば過去のパターンから恩恵を受けます。検索拡張生成（RAG）に着想を得て、最近の研究では、予測を強化するために関連する過去の時系列セグメントを検索することが検討されてきました。しかし、非定常性下での検索では、時系列の類似性のみに依存することはしばしば不十分です。この問題に対処するため、私たちはマルチモーダルアプローチを提案します。すなわち、 extbf{S}emantics- extbf{E}nhanced extbf{R}etrieval- extbf{A}ugmented Time Series extbf{F}orecastingフレームワーク、SERAFです。時系列の類似性のみに依存する主流のアプローチとは異なり、SERAFは時系列とその自己生成されたテキスト記述に対して二重検索を実行します。これにより、2つの相補的な過去のパターンセットとそれに対応する未来が検索され、それらが選択的に、かつ共同で将来の予測を導くために使用されます。
arXiv cs.AI
2026年6月17日
SpeechDx: クリニカル音声AIのためのマルチタスクベンチマーク
音声は、神経系、運動系、呼吸器系、声帯系を同時に活用することで、健康状態をユニークに把握できる情報源となります。現在のクリニカル音声AIの手法は、主に個別の疾患に特化した研究によって進歩してきましたが、結果の比較や一般化の評価を困難にしてきました。そこで、12のデータセットと27のタスクを多様な健康状態にまたがって網羅する、大規模なクリニカル音声AIベンチマークであるSpeechDxを導入します。共通の臨床メカニズムを横断した評価を可能にするため、SpeechDxはタスクを音声生成の段階（概念化、言語化、発声）で構造化します。このベンチマークは、ラベル付きデータが限られているタスクを含め、複数のデータセットにわたる同じ健康状態を評価することで一般化能力をテストし、臨床的に意味のあるパターンとデータセットの人工的な特徴を区別します。すべてのタスクにおいて、またゼロショットのクロスコンディション転移下で、12の最先端オーディオエンコーダーを体系的に評価します。
arXiv cs.AI
2026年6月19日
創発的アライメント
大規模言語モデル（LLM）は、自身の出力が人間の倫理観と乖離している場合にそれを識別できるのか？そして自己修正は可能か？我々はLLMに、自身の推論と出力をレビューする「良心ステップ」を付与し、訓練損失に直接選好最適化（DPO）を用いたアライメントコンポーネントを拡張して、非倫理的な出力からモデルを逸脱させる。この結果、訓練、ファインチューニング、敵対的プロンプティング、ゼロショット学習など、幅広いアプリケーションでモデルをアライメントさせるオンライン技術が実現する。これは、より弱い、あるいはより強いジャッジを必要とせず、代わりに自身の凍結されたコピーに依存する。以前の研究である「創発的乖離」シナリオでは、モデルをハッキングコードにファインチューニングすることで、様々な創発的な非倫理的行動が示された。それに対し、我々は「創発的アライメント」を達成する方法を実証的に示す。単一のハイレベルな内省的な質問が、同じコードハッキングシナリオ下で、訓練を倫理的なモデルへと導く。
arXiv cs.AI
2026年6月19日
クロスリンガル転移における言語的関連性とタスクアライメントの分離
我々は、7つの大規模言語モデル（4B～671Bパラメータ）をアラビア語でファインチューニングし、セム諸語および非セム諸語でのゼロショット読解能力を評価することで、クロスリンガル転移を研究する。密なアーキテクチャとMixture-of-Expertsアーキテクチャ全体において、セム諸語特有の転移の証拠は見つからなかった。ベースラインが弱いモデルは全ての言語で劇的に改善する一方、ベースラインが強いモデルは言語ファミリーに関わらずわずかな改善しか示さなかった。連鎖思考のアブレーションはこの発見を補強する。ファインチューニングから最も恩恵を受けるモデルが、推論時の推論からも同様に恩恵を受けることは、両方のメカニズムがクロスリンガル知識転移ではなく、タスクフォーマットのアライメントに対処していることを示唆している。
arXiv cs.CL
2026年6月19日
いつ信頼し、どう抽出するか：軽量で堅牢な科学的時系列予測のためのマルチ基盤モデルガイダンス
時系列基盤モデル（TSFM）の物理科学分野への展開は、重要なトレードオフによって阻害されている。これらのモデルは豊かで普遍的な時間的ダイナミクスをエンコードする一方で、特定の科学分野にゼロショットで適用する際に深刻な分布のずれが生じ、その計算コストはエッジコンピューティングセンサーネットワークへの展開を妨げている。我々は根本的な課題に取り組む。ずれのある基盤モデル（FM）から潜在的な構造知識をどのように抽出して、軽量で専門的な予測器を訓練できるか？我々は、マルチティーチャー蒸留をインスタンスごとの決定プロセスとして再構築する新しいフレームワーク、Gated Uncertainty-Aware Routing for Distillation（Guard）を提案する。このフレームワークは2つの適応メカニズムを備えている。(1)多様な基盤モデル間の相補性を利用し、ローカル入力統計に基づいて最も関連性の高いティーチャーを動的に選択するコンテクスチュアルルーター。
arXiv cs.LG
2026年6月23日
CSIネイティブ基盤モデルへ：6G向けチャネル適応型ロードマップ
無線基盤モデルは、第6世代（6G）システム向けの再利用可能なチャネル状態情報（CSI）インテリジェンスへの道を提供する。しかし、既存の汎用バックボーン適応およびCSI事前学習手法は、CSIを伝搬条件付きチャネル応答としてではなく、タスクテンソルとして扱うことが多く、無線環境の固有の時間・周波数・空間幾何学的特性を捉えきれていない。本稿では、CSIネイティブ基盤モデルに向けたチャネル適応型ロードマップを提示し、事前学習、位置モデリング、アテンション制御を3つのチャネル要件（スケール認識型異種公開、物理的時間・周波数・アンテナ座標、相関境界トークン相互作用）に整合させる統一フレームワークを提案する。広範な実験により、提案フレームワークのゼロショット汎化（空間・時間・周波数タスク全体でNMSEを4 dB以上削減）、スケール外挿（8倍の未知アンテナスケーリング下で最大5.4 dBのゲイン）、推論効率（モビリティ認識処理を最大18.8%高速化）の3つの次元での優位性が実証された。
arXiv cs.LG
2026年6月24日
製品の望ましさに関する数値的・分類的隠れた感情分析の効率性と説明可能性のためのLLM利用評価
定性的な製品フィードバックはニュアンスのあるユーザー体験を明らかにしますが、その隠れた感情を測定することは困難です。本論文では、大規模言語モデル（LLM）を使用して、このようなデータから製品の望ましさを定量化する、スケーラブルで解釈可能なフレームワークを提案します。ZORQとCARMAの2つのProduct Desirability Toolkit（PDT）データセットを使用し、106の回答者タームグルーピングをゴールドスタンダードの人間によるアノテーションで評価し、明示的なレビュー評価に依存せずに、ゼロショット連続数値感情スコアリングとカテゴリ感情分類を評価します。データセット全体で、LLMは定性的な回答から直接数値感情スコアを生成し、専門家のラベルに非常に近く、ピアソン相関係数は最大0.97、分類精度は最大94%を達成しました。LLMは、複数の形式で提示されたデータを処理しても堅牢性を維持し、一貫して高い信頼性を示しました。対照的に、辞書ベースおよびトランスフォーマーベースラインでは統計的に有意な結果は得られませんでした。
arXiv cs.CL
2026年6月24日
RAGシステムにおける先行優位性の定量化
Retrieval-Augmented Generation (RAG)は、大規模言語モデルを外部知識に接地させますが、現在の評価は離散的なヒューリスティックに依存しており、これは真の文脈情報抽出とパラメータメモリからの想起を区別できない「認識論的盲目」に苦しんでいます。この問題に対処するため、我々はNormalized Context Utilization (NCU)メトリックを導入します。これは、ゼロショット、オラクル、敵対的条件下での連続的なトークン対数確率を活用し、文脈情報ゲインを厳密に定量化します。1.5Bから72Bパラメータのアーキテクチャと、ある商用APIを評価した結果、厳密な事実抽出（Chain-of-Thought推論なし）においては、従来のスケール則は極端な収穫逓減を示し、非常に効率的なSmall Language Models (SLMs)が、高キャパシティなアーキテクチャと同等かそれ以上の性能を発揮することが明らかになりました。さらに、「先行優位性」がモデルのスケールや商用アライメントと相関することを示しました。
arXiv cs.CL
2026年6月25日
エージェント型説得における複合的失敗の診断と緩和：分類学的戦略検索を通じて
マルチステップでオープンエンドな環境における基盤モデルエージェントは、初期の誤りが長期間の軌跡を汚染する複合的エラーに頻繁に悩まされます。マルチエージェントディベート（MAD）は決定論的なドメインで成功を収めていますが、説得のような主観的なタスクでは、エージェントは深刻な問題のドリフトと迎合的な同調に苦しんでいます。標準的なRetrieval-Augmented Generation（RAG）におけるセマンティックリークがこれらの失敗の再現可能なトリガーであることを特定しました。これは、標準RAGが論理的必然性よりも語彙の重複を優先するためです。このリークを排除するために、Taxonomic Strategy RAG（TS-RAG）を導入しました。これは、議論の構造とトピックの内容を分離するために、戦略を離散的なカテゴリのボトルネックにルーティングするシステム介入です。ゼロショット・クロスドメイン評価により、TS-RAGは標準的なセマンティック検索が崩壊する抽象論理の転移を大幅に改善することが示されました。
arXiv cs.AI
2026年6月29日
統一ゼロショット時系列予測：ダーツ財団
2020年の初回リリース以来、ダーツは時系列分析に広く使われるオープンソースのPythonライブラリとなりました。最近、一連の基盤モデルがゼロショット予測の精度向上を主張し、カスタムモデルのトレーニングから事前トレーニング済みの汎用予測モデルの活用へのパラダイムシフトを約束しています。しかし、基盤モデルは、断片化されたインターフェースと一般的なツールとの相互運用性の制限を持つ独立したパッケージとしてリリースされることが多く、完全なパイプライン内での共同評価と統合を困難にしています。ダーツでは、標準化されたフルサイクル予測インターフェースを提供する統一された exttt{FoundationModel}クラスコレクション（Chronos-2, TimesFM 2.5, TiRex, PatchTST-FM）を開発しました。これにより、基盤モデルをエコシステムに統合するための外部依存性を最小限に抑えました。既存のダーツパイプラインは、名前の変更だけで基盤モデルを使用できるようになりました。
arXiv cs.LG