TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月11日
BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク
画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル（MLLM）の時代に多大な関心を集めています。
Apple Machine Learning Research
2026年5月29日
Google I/O 2026の12の主要発表をまとめた
Googleが開催した2026年の開発者向けカンファレンス「Google I/O 2026」では、AI技術に関する複数の重要な発表が行われた。発表の中心となったのは、新しいAIモデルの登場だ。マルチモーダル対応の「Gemini Omni」や軽量版の「Gemini 3.5 Flash」など、様々な用途に対応したモデルが紹介された。これらは処理速度や効率性の向上を実現する設計となっており、開発者向けのツールとしての実用性が強化されている。同カンファレンスでは、これら新モデルの他にも複数のAI関連機能やサービスが公開された。発表の総数は12項目にのぼり、Googleの人工知能分野における技術開発の進展ぶりが示された形だ。これらの発表により、開発者やユーザーが利用可能なAI技術の選択肢が増え、より多くの応用分野での活用が期待される。業界全体におけるAI統合の加速につながると見られている。（出典：Google AI Blog）
Google AI Blog
2026年5月29日
TRACES：軌跡状態モデリングによるマルチターンLLMエージェント向けプロアクティブセーフティ監査
LLMエージェントはマルチターンツール使用と環境相互作用を通じてますます動作していますが、安全リスクは最終結果に表面化する前の中間ステップから生じることが多いです。したがって、リアクティブ監査は不十分です。事後診断はリスクを指摘する機会を逃すことが頻繁にあります。
arXiv cs.CL
2026年5月29日
反応トーンを通じたコミュニティ態度のモデリング：オンラインコミュニティの言語的行動とLLMアラインメント評価のための人間-AI協働フレームワーク
大規模言語モデル（LLM）は計算社会分析のプロキシとしてますます利用されていますが、人間のコミュニティの「厚い記述」を忠実に表現する能力は依然として重大な課題です。現在の評価では、社会的アイデンティティを静的なラベルに縮小することが多いです。
arXiv cs.CL
2026年5月29日
認知圏論トランスフォーマー：言語モデリングのための圏論的帰納的バイアス
認知圏論トランスフォーマー(CCT)は3億600万パラメータのアーキテクチャで、事前学習されたGPT-2 Smallバックボーンを圏論から導出された認知的に根拠のあるコンポーネント、および認知科学からのいくつかのインスピレーションで拡張しています。マッチドステップ・プロトコル下(215,000最適化ステップ)で...
arXiv cs.AI
2026年5月29日
ICG：MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善
arXiv:2605.27374v1 マルチモーダル大言語モデル（MLLM）と拡散モデル（DM）の最近の進歩により、AI生成コンテンツの新しい可能性が開かれた。しかし、パーソナライズされたカバー画像生成は、デジタルプラットフォームでのユーザーエンゲージメント向上における重要な役割にもかかわらず、ほとんど未開拓である。
arXiv cs.CL
2026年5月29日
ノルネ貯留層システムの逐次物理制約ニューラルオペレータ順方向モデリング
フーリエニューラルオペレータ(FNO)と物理情報付きの変種(PINO)に特に重点を置いて、ニューラルオペレータを使用した3相ブラックオイル貯留層ダイナミクスの逐次サロゲートモデリング用の包括的な数学および計算フレームワークを開発する。アプリケーションの焦点はノルネシステムである。
arXiv cs.LG
2026年5月29日
PrismFlow：時系列生成のための残差動力学フロー・マッチング
実世界の信号は振動や高周波変動を含むマルチモーダルパターンと多スケール動力学を示すため、高品質な時系列データの生成は困難です。Flow Matching（FM）は拡散モデルの効率的な代替手段を提供しますが、実装では課題があります。
arXiv cs.LG
2026年5月29日
VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク
有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。
arXiv cs.AI
2026年5月29日
PAST2HARM: マルチモーダルAIのジェイルブレイク用シンプル適応型過去形攻撃
マルチモーダルAIシステムへのジェイルブレイク攻撃は未だ十分に研究されていません。テキストの不安全な生成よりも深刻な結果をもたらす可能性のある不安全な画像生成が存在する一方で、現在の防御策は比較的成熟していません。本研究ではPAST2HARMという、拒否トレーニングをバイパスする効果的な適応型ジェイルブレイクフレームワークを紹介します。
arXiv cs.CL
2026年5月29日
BEAMS: AI モデリング・シミュレーション評価ベンチマーク
実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。
arXiv cs.AI
2026年5月29日
ラベル空間の再構成によるマルチモーダル学習のバランシング
マルチモーダル学習は、より速く収束するモーダルが最適化を支配する一方で、他のモーダルが訓練不足に陥るモーダルインバランスの問題に悩まされることがあります。既存のアプローチは、通常、弱いモーダルを強化するか、最適化勾配を調整することでこの問題を軽減しますが、そのような戦略には制限があります。
arXiv cs.LG
2026年5月30日
Gemini OmniとGemini 3.5の9つのデモ動画
Googleは開発者向けカンファレンス「I/O 2026」で発表した最新AI モデル「Gemini Omni」と「Gemini 3.5」の機能を示すデモンストレーション動画9本を公開した。公開された動画では、両モデルの実際の動作と性能が具体的に紹介されている。Gemini Omniは音声、画像、テキストなど複数の形式のデータを統合的に処理する能力を持つマルチモーダルモデルで、より自然で正確な応答生成が可能とされている。一方、Gemini 3.5は前世代からの性能向上が示されており、様々なタスクにおける処理精度の改善が確認できるという。これらのデモ動画は、開発者やAI技術に関心を持つユーザーに対して、Googleの最新AI技術の実用的な活用方法を理解する機会を提供している。今後、これらのモデルは様々なアプリケーション開発に活用されることが期待される。（Google AI Blog）
Google AI Blog
2026年5月30日
センサーに音声を与える：セマンティック時系列埋め込みのためのマルチモーダルJEPA
センサーデータの解析に新たな手法が登場した。学習論文プラットフォームのarXivで公開された研究によると、Transformerアーキテクチャを活用した「CHARM」というモデルが開発され、多変量時系列データの処理において高い性能を示している。このモデルの特徴は、センサーなどから得られる複雑なデータに対して、テキスト情報を組み合わせるマルチモーダル学習を採用している点である。具体的には、各センサーチャネルに対して自然言語による説明を付与することで、データの意味をより深く理解できる仕組みになっている。実験結果では、異常検知・データ分類・将来値予測といった複数のタスクで優れた成果を上げたという。特筆すべきは、ノイズの多い実環境のセンサーデータに対しても堅牢性を保ち、同時にモデルの判断根拠が解釈しやすいという利点を兼ね備えている点である。さらに簡潔な学習手法でも強い性能を発揮でき、実用性が高いことが示唆されている。この技術は、製造業や医療分野などセンサーデータが重要な産業への応用が期待される。
arXiv cs.LG
2026年6月1日
TeachObs：マルチモーダル教授観察とモデル評価のための人間検証済みベンチマーク
教室ビデオには観察可能な教授実践が含まれていますが、その教育学的および視覚的シグナルはモデル評価に適した形式で整理されることはめったにありません。本研究では、教室ビデオにおけるマルチモーダル教授観察のための人間検証済みベンチマークである「TeachObs」を提示します。TeachObsには30件のデータが含まれています。
arXiv cs.CL
2026年6月1日
BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク
現在のマルチモーダルモデルは静止画像認識は得意ですが、直感的な物理推論はまだ弱点です。単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは、これらのシステムにとって依然として困難です。物理推論用のベンチマークBilliardPhys-Benchを提示します。
arXiv cs.AI
2026年6月1日
CobSeg: 対話トピックセグメンテーションのための一貫性境界モデリング
対話トピックセグメンテーションは異なる境界手がかり(発話エッジ付近の語彙遷移および発話全体の意味的不連続性)を識別する必要がある多くのヒト-AI協調アプリケーションで重要である。既存の発話モデルはしばしばこれらのローカル語彙信号を希薄化させる。
arXiv cs.CL
2026年6月1日
マルチモーダル音声モデルが「ラジオ向きの顔」と判定する
arXiv:2605.30472v1。大規模ニューラルモデルが言語タスクで高性能化するにつれ、研究者はより多くのデータモダリティを処理するマルチ・オムニモーダルモデルを構築している。例としては、ノイズ軽減とマルチモーダル字幕化のため、音声認識モデルを音声・ビジュアルデータに拡張したこと。
arXiv cs.CL
2026年6月1日
適応力の習得：認知認識型探索による自己改善ウェブエージェント
マルチモーダル大規模言語モデル(MLLM)の最近の進展はウェブエージェントにおいて有望な進歩をもたらしている。しかし既存のウェブエージェントは手作りの実行パイプラインや高額な専門家軌跡に依存することが多く、複雑で動的な環境への適応性が限定されている。
arXiv cs.AI
2026年6月1日
パディング付きトランスフォーマー表現力の再検討：どのアーキテクチャの選択が重要でどれが重要でないのか
arXiv:2605.30523v1発表タイプ：新規概要：最近の研究では、トランスフォーマーがブール回路との接続を通じて計算できること・できないことを説明しているが、既存の結果は正確な特性化を欠き、モデリング選択に対して敏感である。パディング付きトランスフォーマー――入力に「...」などのフィラー記号が追加される――は有用なツールとして出現している。
arXiv cs.LG
2026年6月2日
ProtoAda: マルチモーダル継続学習におけるプロトタイプ誘導型適応アダプタ展開と幾何学的統合
マルチモーダル大規模言語モデルの継続学習における課題解決の新たなアプローチが報告された。既存の継続学習手法では、画像とテキストの類似度のみを基準に専門家タスクの割り当てを行っていたため、異なる出力形式を持つタスク間で勾配干渉が発生し、性能低下につながっていた。新研究「ProtoAda」は、この問題に対してプロトタイプ誘導型の適応的アダプタ拡張と幾何学的統合を組み合わせた手法を提案している。応答形式の違いを明確に考慮することで、タスク間の干渉を軽減し、より効率的な継続学習を実現する。この技術により、マルチモーダル継続学習タスク（MCIT）全体の性能向上が期待できるという。画像認識とテキスト処理を同時に扱う複合的なAIシステムの精度向上につながる可能性がある。（arXiv cs.LG）
arXiv cs.LG
2026年6月2日
マルチモーダルLLM評価器の知覚判断バイアス緩和：知覚摂動と報酬モデリング
視覚と言語の矛盾を見分ける課題に対応マルチモーダル大規模言語モデル（LLM）が自動評価システムとして機能する際、画像とテキストが相反する状況で問題が生じることが明らかになった。研究によると、これらのモデルはもっともらしく聞こえるテキスト応答を、実際の画像内容より優先する傾向があるという。研究チームは、制御された画像変化を加えることでこの「知覚判断バイアス」を詳細に分析。実際の画像内容とは異なる反事実的な応答を組み込んだ新しい評価データセットを構築した。対策として、報酬モデリングとバッチランキング目的を統合した統一的なフレームワークを開発。このアプローチにより、視覚情報とテキスト情報の両者を適切に重視し、より正確で一貫性のある評価を実現できるようになった。成果は、マルチモーダルAIが複雑な判断を求められる場面で、より信頼できる決定を下すための基盤となる可能性を示している。（arXiv）
arXiv cs.AI
2026年6月2日
lmfaoooo at SemEval-2026 Task 1: ユーモアは観客である。制約付きユーモア生成のための選好モデリング
ユーモア生成は、流暢で新しいジョークを生成することの難しさだけでなく、「面白い」というのが観客に依存し、教師ラベルがノイズを含んでいるという点で困難です。選好は観客、文脈、文化によって異なり、アノテータ間の一致度も低くなります。本論文では、SemEvalのシステムについて説明します。
arXiv cs.CL
2026年6月2日
TIGER:マルチモーダル生成における幻覚軽減のためのグラフベース証拠ルーティングによる追跡可能な推論
入力によってサポートされていない特定の事実を含む可能性のあるマルチモーダル生成のファクトレベルの修復を研究します。既存の推論時間修復方法は、入力と現在の出力の両方を条件として、フィードバックを生成します。この設計には2つの制限があります。
arXiv cs.AI
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月2日
是正フローにおける対比速度マッチングによる幾何学的消去
マルチモーダル生成モデルの急速な採用は莫大な可能性を提供しますが、有害なコンテンツ合成、ディープフェイク、著作権侵害のリスクも増加させています。これらの課題に対処するため、コンセプト消去は潜在的なセーフガードとして出現しています。
arXiv cs.LG
2026年6月3日
想像的知覚トークンがマルチモーダル言語モデルの空間推理を強化
ビジョン言語モデルの空間推理能力向上に新たなアプローチ人工知能の研究領域で、視覚情報と言語を組み合わせて処理するビジョン言語モデル（VLM）が、直接見えない空間の推理が難しいという課題に対する解決策が提案された。研究者らは「想像的知覚トークン」という手法を開発し、モデルが観察できない領域の情報を補完できるようにした。この手法は、視点が変わった時の物体の位置推測や、障害物で隠れている空間での経路追跡といった3つのタスクで検証されている。研究では約20,000例の新規データセットを構築し、BAGEL骨格と呼ばれるシステムに新手法を組み込んで評価。結果として、従来のテキストベースの推論方法を上回る性能を達成したという。この進歩により、VLMはより複雑な3次元空間の理解へ向けた一歩を踏み出す可能性がある。（arXiv cs.AI）
arXiv cs.AI
2026年6月3日
アリババのQwen3.7-Plusがテキスト・動画・画像入力に対応、1M トークン当たり$0.4/$1.6の低価格だがプロプライエタリ
中国のアリババは、マルチモーダル対応の大規模言語モデル「Qwen3.7-Plus」を発表した。テキストに加え、動画と画像の入力に対応する同モデルは、前世代比で60%のコスト削減を実現し、1Mトークン当たりテキスト入力は0.4ドル、動画・画像入力は1.6ドルの価格設定となっている。一方で、同社は商用利用をAPIおよび「Qwen Chat」を通じた有償ライセンスに限定。プロプライエタリ(非公開)ライセンスでのみ提供する方針を明確にした。これまでオープンソースモデルの提供に注力してきたアリババにとって、戦略的な転換点となる。低コストと高性能を両立させた点は評価される一方、オープンソースを活用するユーザーからの反発が懸念される。（引用元：VentureBeat AI）
VentureBeat AI
2026年6月4日
「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル
米Googleがオープンなマルチモーダルモデル「Gemma 4 12B」を発表した。エンコーダー不要の統合アーキテクチャを採用し、メモリ16GBのノートPCで動作可能。上位モデルに迫る性能を発揮するという。
ITmedia AI+
2026年6月4日
Googleが新しいオープンソース「Gemma 4 12B」をリリース、音声と映像を分析でき16GBノートパソコンで完全にローカル実行可能
Googleは新たなオープンソースAIモデル「Gemma 4 12B」をリリースしました。約120億のパラメータを備え、Apache 2.0ライセンスの下で公開される同モデルは、16GBのメモリを搭載した一般的なノートパソコンでの完全なローカル実行が可能です。従来のマルチモーダルAIとは異なり、エンコーダレスのUnified アーキテクチャを採用することで、音声と映像データを言語モデルの基盤に直接入力できる仕様となっています。この設計により、データ変換に伴うオーバーヘッドを大幅に削減しながら、複数の形式のコンテンツ分析を実現します。 HuggingFaceやKaggleを通じて無料でダウンロード可能であり、企業から個人開発者まで幅広いユーザーが活用できます。手軽にアクセス可能な高性能AIの提供により、エッジデバイスやオンプレミス環境でのAI導入がより身近になると考えられます。（VentureBeat AI）
VentureBeat AI