TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年6月2日
高次元構造化表現のためのジオデシックフロー・マッチング
ベクトル記号代数（VSA）は記号情報を高次元分散表現にエンコードすることによってロバストなニューロシンボリック推論を可能にします。連続領域の場合、空間セマンティックポインタ（SSP）は変数を連続トーラス多様体にマッピングすることでこのフレームワークを拡張します。しかし、安定性の問題があります。
arXiv cs.AI
2026年6月8日
人々がAIに本当に求めるもの：選好の多様性をマッピング
大規模言語モデル（LLM）は人間のフィードバックからの強化学習（RLHF）を通じて調整されることが多いが、この方法には既知の制限がある。75カ国のPRISMデータセットから1,500件の自由記述回答を分析した結果、異なる人々がAIシステムに異なるものを求めていることが判明した。ほとんどの価値観は回答者の4分の1未満から要望されており、例外は「真実性」で49%である。同じ言葉でも異なる意味が隠されており、「真実性」の定義は引用元のある主張を求める人、専門家意見を求める人、非主流意見を求める人など、潜在的に相容れない認識論的基盤を示している。人間らしさやAIの安全装置などの機能は物議を醸しており、肯定する人と拒否する人に分かれている。さらに、現在の二値比較では捉えられない状況的区別（デフォルトで行うべきことと「要求された場合」）を人々がよく使用することも判明した。これらの知見は、現在の整合化実務における根本的な問題を明らかにしており、単一の報酬モデルでは複数の定義の「真実性」を捉えることができず、このような現象は認識論的暴力と特徴付けられている。
arXiv cs.CL
2026年6月10日
Cohereが単一のH100で動作するコーディングエージェントをオープンソース化
Cohereは、単一のH100で実行可能なオープンソースのコーディングエージェント「North Mini Code」を発表しました。この300億パラメータのモデルは、サブエージェントのオーケストレーション、アーキテクチャマッピング、コードレビューなど、エージェントソフトウェアエンジニアリングを対象としています。 256,000トークンのコンテキストウィンドウと64,000トークンの最大生成長をサポートし、Apache 2.0ライセンスでHugging Faceで利用可能です。
VentureBeat AI
2026年6月10日
「ぼっち・ざ・ろっく！」プロジェクションマッピングが6月20日から都庁で公開
はまじあき原作によるアニメ「ぼっち・ざ・ろっく！」のプロジェクションマッピング「『ぼっち・ざ・ろっく！』青春コンプレックス」が、6月20日より東京・都庁舎で公開される。
コミックナタリー
2026年6月10日
「ぼっち・ざ・ろっく！」都庁プロジェクションマッピングに登場！ 6月20日より結束バンド「青春コンプレックス」を上映
都庁舎をキャンバスに光と音で多彩なアートを表現するプロジェクションマッピング「TOKYO Night & Light」に、『ぼっち・ざ・ろっく！』が登場。2026年6月20日より上映開始する。
アニメ!アニメ!
2026年6月15日
月 100万件・ 50億トークンをローカルLLMで捌く - 明細名のストア情報マッピング
こんにちは。ナウキャストの Data Holder Unit 所属、マッピングチームでデータエンジニアをしている翁長です。この記事では、2026 年度の社内 AI コンテストで優勝とテクノロジー賞をダブル受賞（！
はてなブックマーク IT
2026年6月18日
モントリオール強制アライナーと2026年の音声認識アライメントの現状
モントリオール強制アライナー（MFA）は2016年にリリースされ、以来、研究および産業分野で最も広く使用されている強制アライメントツールとなっています。それから10年間で、MFAは、より大規模なオープンソースデータセット、統一されたIPA辞書、モデル適応、クロス言語フォネティック再マッピング、およびサポートユーティリティを使用した、より多くの言語と方言へのカバレッジ拡大を含む、大幅な開発を経てきました。本論文は、バージョン1.0以降のMFA 3.0の開発を記録し、古典的およびニューラル強制アライナーをベンチマークとして、英語、日本語、韓国語におけるMFAのパフォーマンスを評価します。MFA 3.0は、平均境界誤差15ミリ秒未満で、4つのベンチマークデータセットすべてにおいて最先端またはそれに近いパフォーマンスを達成しています。適応とクロス言語再マッピングは、MFAのトレーニング分布外の言語に効果的であり、発音確率モデリングと音韻規則は特定の条件下で改善をもたらします。
arXiv cs.CL
2026年6月19日
継続的AI支援ペイスマッピングとアクティブラーニングによるcAPM
心室頻拍は生命を脅かす不整脈であり、突然死の主要な原因です。ペイスマッピングは、VTのカテーテルアブレーション中に介入標的を特定するための臨床手技です。これには、臨床医が心室のさまざまな部位をペーシングし、結果の心電図を迅速に解釈して、次にどこをペーシングするか、または標的部位が特定されたかどうかを判断する必要があります。アクティブラーニングAIモデルは、臨床医を次のペーシング部位に誘導するために提案されており、ペーシング部位の数を減らし、ペイスマッピングの効率を改善する可能性を示しています。既存の方法では、同じ患者内の複数のVT間、または患者間で知識を転送する能力なしに、各標的を再トレーニングする必要があります。本研究では、過去のペイスマッピングデータから蓄積された知識をキャプチャして転送し、将来の標的VTに必要なペイスマッピングデータの数を減らすための、継続的AI支援ペイスマッピングであるcAPMを紹介します。
arXiv cs.LG
2026年6月22日
都庁『ぼっち・ざ・ろっく！』プロジェクションマッピング上映結束バンド「青春コンプレックス」モチーフ
東京都は、アニメ『ぼっち・ざ・ろっく！』とコラボしたプロジェクションマッピング『「ぼっち・ざ・ろっく！」青春コンプレックス』の上映をスタートさせた。劇中に登場する“結束バンド”の楽曲「青春コンプレックス」の世界観を、都庁舎の圧倒的スケールで描き出している。
産経新聞
2026年6月23日
MindAlign：限定データ下でのマルチモーダル埋め込みアライメントによるfMRI信号からの内的音声のデコード
内的な言語出力の欠如、学習データの制限、被験者間の大きなばらつきにより、非侵襲的な脳信号からの内的音声のデコードは依然として根本的な課題です。既存の脳信号からテキストへのアプローチは、タスク固有のデコーダーのファインチューニングに依存することが多く、スケーラビリティを制限し、新しい被験者への適応を複雑にします。本研究では、基盤となる言語モデルを変更することなく、fMRI信号からのオープンエンドなテキスト生成を可能にする、分離された2段階の脳信号から言語へのフレームワークであるMindAlignを提案します。第1段階では、fMRI活動を共有マルチモーダル意味空間にマッピングし、内的生成された文章の潜在的な意味スケッチを抽出する、被験者固有のニューラル意味アライメントを学習します。第2段階では、このスケッチを視覚的コンテキストと統合し、冷凍されたマルチモーダル言語モデルにプロンプトを与えることで自由形式の生成を行います。静かな画像記述中に収集されたfMRIデータを用いた実験により、提案手法が一貫してfMRIのみおよびランダムベースラインを上回ることが実証されました。
arXiv cs.CL
2026年6月25日
SemEval-2026タスク13におけるDream：単一パス機械生成コード検出のためのSALSA
大規模言語モデル（LLM）はコード生成を革新しましたが、著作者、評価の整合性、ソフトウェアの信頼性に関する懸念も高まっています。SemEval-2026タスク13サブタスクAは、特に未知のプログラミング言語やアプリケーションドメインをまたいだ分布外（OOD）汎化に重点を置き、コードスニペットに対する二項分類として検出を運用化します。本研究では、各クラスを専用の出力トークンにマッピングし、モデルが構造化された応答で単一トークンラベルを発行するようにトレーニングする、単一パス自己回帰LLM構造化分類（SALSA）スタイル定式化を提案します。手作りの特徴量や決定ルールを設計するのではなく、この定式化は著作者の判断をモデルに委任します。OODロバスト性を向上させるために、言語間のバランスの取れたサンプリングと、パラメータ効率の良いファインチューニングおよび保守的なトレーニング（低学習率、単一エポック）を組み合わせ、トレーニングドメインへの過学習を回避します。
arXiv cs.CL
2026年6月26日
連邦型ハッシュ投影潜在因子学習
ハッシュ学習（HL）は、実数値データをコンパクトなバイナリ表現にマッピングする効率的な表現学習アプローチです。従来のHL手法では、通常、ユーザーは個人データを中央サーバーにアップロードする必要がありますが、これはますます厳格化するデータセキュリティ規制と互換性がありません。連邦学習（FL）は、プライベートデータを集中化することなく、グローバルに最適なモデルを学習するための分散型パラダイムを提供します。しかし、ほとんどのFL手法は、大規模な実数値勾配情報の送信に依存しており、高い通信オーバーヘッドと潜在的なプライバシーリスクにつながります。HLをFLに統合することは有望な解決策です。それにもかかわらず、既存のHL手法は、バイナリコードの表現能力が限られているため、モデルの精度が低下する可能性があります。この課題に対処するために、連邦型ハッシュ投影潜在因子（FHPLF）モデルを提案します。FHPLFは3つの主要なイノベーションを導入します。（a）実数値勾配行列をバイナリ勾配様行列に置き換えることで、計算、ストレージ、通信コストを大幅に削減し、プライバシー保護を強化します。
arXiv cs.LG
2026年6月29日
信頼性と堅牢性の高いLLMプランニングに向けて：シンボリックフィードバック駆動型反復的自己改善フレームワーク
大規模言語モデル（LLM）は学術界および産業界から広く注目を集めているが、その展開には堅牢性と信頼性に関する重大なセキュリティ上の懸念が伴う。インテリジェントな行動の中核をなすプランニングは、LLMにとって依然として困難な課題であり、固有の複雑さから長期間にわたる意思決定タスクにおいて、実現不可能または不正確な解を生成することが多い。本稿では、長期間にわたるプランニングにおけるLLMの堅牢性と信頼性を向上させるため、シンボリックフィードバック駆動型反復的自己改善フレームワークを提案する。具体的には、論理シンボルを自然言語記述にマッピングする自然言語プロンプトメカニズムを導入し、LLMがタスクの制約と意味をより良く捉えられるようにする。さらに、エラーを特定し、LLMが解釈可能な修正指示に変換することで自己改善を導くシンボリック検証器を設計する。加えて、目標到達可能性を推測するためのプラン認識器を活用し、望ましい目標へのより効果的なガイダンスを促進する。
arXiv cs.AI
2026年6月29日
プレゼンテーション自動コーチングの調査：システム、手法、および未解決の課題
スピーチのプレゼンテーションに対する自動コーチングは、コンピュータ支援発音トレーニング（CAPT）、プロソディモデリング、音声合成の交差点に位置しますが、これまでこれらの側面において既存のシステムを体系的に調査・比較した研究はありませんでした。本調査では、発音チューター、流暢さ・プロソディコーチ、マルチモーダルトレーナー、会議の質疑応答練習ツールなど、自動プレゼンテーションコーチングシステムをレビューし、分類します。セグメンタル発音、語彙ストレス、超セグメンタルプロソディ、ペース配分、内容の忠実性という5次元のタスク分類を導入し、調査対象システムをそれに明示的にマッピングして、カバー率のギャップを明らかにします。さらに、これらのシステムが採用するコア技術手法、すなわち、発音、プロソディ、流暢さの評価のためのTTSベースの模範生成および診断手法をレビューします。主要な未解決の課題には、注釈付きプレゼンテーションコーパスの不足、多様な第一言語の背景を持つ学習者に対するアクセントに公平なフィードバックの実現、リアルタイムリハーサルに向けた低遅延診断の提供が含まれます。
arXiv cs.CL
2026年6月29日
欧州のAI労働力機会のマッピング
OpenAIの新しいレポートは、AIがEU全域の雇用をどのように変革する可能性をマッピングし、自動化、成長、またはワークフローの変化に直面する可能性のある職業を強調しています。
OpenAI
2026年7月1日
ReactionAtlas：機械学習による化学反応ネットワークのゼロからの探索
化学反応ネットワーク、すなわち触媒作用から燃焼、生命の起源に至るまで、化学の自然言語である最小値と遷移状態（TS）、およびそれらを結ぶ素反応のグラフをマッピングすることは、化学の自然言語です。特定の化学反応に対するそのような反応ネットワークの構築は、これまで非現実的でした。なぜなら、数万のTSを見つけて特性評価する必要があり、密度汎関数理論（DFT）のような従来の計算手法では、通常、非現実的なほど遅く、反応物と生成物を入力として必要とするためです。本稿では、少数のシード分子から、手作業で作成されたルールなしで、ゼロから反応ネットワークを構築するReactionAtlasを紹介します。具体的には、機械学習された生成モデルが、運動論的にサンプリングされた候補化合物から反応を提案し、DFTで訓練された機械学習力場（MLFF）がそれらを有効なTSにフィルタリングします。その結果生成された生成物は、新しいシードとして探索に入ります。
arXiv cs.LG
2026年7月2日
VideoFlexTok: 柔軟な長さの粗視的・詳細なビデオトークン化
ビジュアルトークナイザーは、高次元の生ピクセルを、下流のモデリングのための圧縮された表現にマッピングします。圧縮を超えて、トークナイザーはどの情報が保持され、どのように整理されるかを決定します。ビデオトークン化の事実上の標準的なアプローチは、ビデオをトークンの時空間3Dグリッドとして表現することであり、各トークンは元の信号における対応する局所情報を捉えます。
Apple Machine Learning Research
2026年7月3日
SPARCLE：対照言語埋め込みによる話者認識アラインド表現
音声合成における近年の進歩は、音素表現から直接的な書記素モデリングへと移行しています。音素は、テキストと音響間の1対多のマッピングに対応しますが、話者固有の音響変動を捉えられない書記素から音素（G2P）システムに依存しています。先行研究では、書記素ベースのモデルが音素ベースのシステムよりも大規模で優れた性能を発揮することを示していますが、リソースの少ない設定ではそうではありません。本稿では、話者認識書記素表現モデルであるSPARCLEを提案します。これは、文字に正確な音響実現を付加することで文字を強化します。SPARCLEは、話者IDを条件として、書記素を対応するWav2Vec2音響表現にアラインするために対照目的でトレーニングされます。結果として得られるモデルは、下流のテキスト音声合成（TTS）タスクのG2Pシステムの代替として機能します。SPARCLEが生成品質を改善し、標準的な書記素ベースのモデルと比較して、極端なリソースの少ない設定で単語エラー率を半分に削減することを示します。
arXiv cs.CL
2026年7月3日
I2RiMA：EEG信号に基づく精神的ストレス検出のための時系列アテンションを用いたスペクトル・リーマン表現
被験者間のEEGストレス検出は、識別性の高いストレス関連パターンが被験者依存かつ周波数特異的であるため、依然として困難です。従来のリーマン法は主に時間領域で空間共分散をモデル化し、高次認知状態のデコーディングに不可欠な神経振動を見落としますが、標準的な時間的トークン化はスライス間の時間的コヒーレンスをしばしば断片化します。これらの限界に対処するため、EEGベースのストレス検出のためのintra-interリーマン多様体アテンションネットワークであるI2RiMAを提案します。I2RiMAは、各周波数ポイントで独立に空間共分散行列を構築し、それをSPD接空間にマッピングすることで、チャンネルごとの幾何学的構造と周波数特異的な識別手がかりを保持します。さらに、周波数クラスタリング集約を導入し、EEGリズムに沿ったコンパクトでデータ駆動型の周波数クラスタを形成することで、情報量の多いスペクトル成分を選択し冗長性を低減します。
arXiv cs.LG
2026年7月3日
テキストをマルチプレックスグラフにマッピング：レヴィウォーク誘導グラフ枝刈りによるプロンプト圧縮
既存のプロンプト圧縮手法は、テキストをフラットなトークンシーケンスとして扱っており、重要な情報がしばしば複数の場所に分散し、局所的な構文依存関係と大域的な意味関係の両方を通じて接続されているという、情報の分散的な性質を捉えられていません。このような関係構造は、トークンや文をノード、依存関係をエッジとするグラフとして自然に表現されます。この目的のために、我々はRAGPを提案します。これは、きめ細やかなアテンションベースの依存関係と粗い意味関係を共同でモデル化するマルチプレックスグラフ上での冗長性認識グラフ枝刈りとしてプロンプト圧縮を定式化するものです。この異種構造（密な局所サブグラフと疎な大域的接続）における冗長でないノードを効率的に特定するために、我々はレヴィウォークを採用します。このレヴィウォークは、そのヘビーテイルステップ分布により、局所的な探索と大域的な探査のバランスを自然に取ります。
arXiv cs.CL