TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月11日
BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク
画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル（MLLM）の時代に多大な関心を集めています。
Apple Machine Learning Research
2026年5月29日
VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク
有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。
arXiv cs.AI
2026年5月29日
PAST2HARM: マルチモーダルAIのジェイルブレイク用シンプル適応型過去形攻撃
マルチモーダルAIシステムへのジェイルブレイク攻撃は未だ十分に研究されていません。テキストの不安全な生成よりも深刻な結果をもたらす可能性のある不安全な画像生成が存在する一方で、現在の防御策は比較的成熟していません。本研究ではPAST2HARMという、拒否トレーニングをバイパスする効果的な適応型ジェイルブレイクフレームワークを紹介します。
arXiv cs.CL
2026年5月29日
ラベル空間の再構成によるマルチモーダル学習のバランシング
マルチモーダル学習は、より速く収束するモーダルが最適化を支配する一方で、他のモーダルが訓練不足に陥るモーダルインバランスの問題に悩まされることがあります。既存のアプローチは、通常、弱いモーダルを強化するか、最適化勾配を調整することでこの問題を軽減しますが、そのような戦略には制限があります。
arXiv cs.LG
2026年5月29日
ICG：MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善
arXiv:2605.27374v1 マルチモーダル大言語モデル（MLLM）と拡散モデル（DM）の最近の進歩により、AI生成コンテンツの新しい可能性が開かれた。しかし、パーソナライズされたカバー画像生成は、デジタルプラットフォームでのユーザーエンゲージメント向上における重要な役割にもかかわらず、ほとんど未開拓である。
arXiv cs.CL
2026年5月29日
PrismFlow：時系列生成のための残差動力学フロー・マッチング
実世界の信号は振動や高周波変動を含むマルチモーダルパターンと多スケール動力学を示すため、高品質な時系列データの生成は困難です。Flow Matching（FM）は拡散モデルの効率的な代替手段を提供しますが、実装では課題があります。
arXiv cs.LG
2026年6月1日
BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク
現在のマルチモーダルモデルは静止画像認識は得意ですが、直感的な物理推論はまだ弱点です。単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは、これらのシステムにとって依然として困難です。物理推論用のベンチマークBilliardPhys-Benchを提示します。
arXiv cs.AI
2026年6月1日
マルチモーダル音声モデルが「ラジオ向きの顔」と判定する
arXiv:2605.30472v1。大規模ニューラルモデルが言語タスクで高性能化するにつれ、研究者はより多くのデータモダリティを処理するマルチ・オムニモーダルモデルを構築している。例としては、ノイズ軽減とマルチモーダル字幕化のため、音声認識モデルを音声・ビジュアルデータに拡張したこと。
arXiv cs.CL
2026年6月1日
適応力の習得：認知認識型探索による自己改善ウェブエージェント
マルチモーダル大規模言語モデル(MLLM)の最近の進展はウェブエージェントにおいて有望な進歩をもたらしている。しかし既存のウェブエージェントは手作りの実行パイプラインや高額な専門家軌跡に依存することが多く、複雑で動的な環境への適応性が限定されている。
arXiv cs.AI
2026年6月1日
TeachObs：マルチモーダル教授観察とモデル評価のための人間検証済みベンチマーク
教室ビデオには観察可能な教授実践が含まれていますが、その教育学的および視覚的シグナルはモデル評価に適した形式で整理されることはめったにありません。本研究では、教室ビデオにおけるマルチモーダル教授観察のための人間検証済みベンチマークである「TeachObs」を提示します。TeachObsには30件のデータが含まれています。
arXiv cs.CL
2026年6月2日
是正フローにおける対比速度マッチングによる幾何学的消去
マルチモーダル生成モデルの急速な採用は莫大な可能性を提供しますが、有害なコンテンツ合成、ディープフェイク、著作権侵害のリスクも増加させています。これらの課題に対処するため、コンセプト消去は潜在的なセーフガードとして出現しています。
arXiv cs.LG
2026年6月2日
TIGER:マルチモーダル生成における幻覚軽減のためのグラフベース証拠ルーティングによる追跡可能な推論
入力によってサポートされていない特定の事実を含む可能性のあるマルチモーダル生成のファクトレベルの修復を研究します。既存の推論時間修復方法は、入力と現在の出力の両方を条件として、フィードバックを生成します。この設計には2つの制限があります。
arXiv cs.AI
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月4日
「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル
米Googleがオープンなマルチモーダルモデル「Gemma 4 12B」を発表した。エンコーダー不要の統合アーキテクチャを採用し、メモリ16GBのノートPCで動作可能。上位モデルに迫る性能を発揮するという。
ITmedia AI+
2026年6月4日
「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル(ITmedia NEWS)
米Googleは6月3日（現地時間）、マルチモーダルのオープンウェイトモデル「Gemma 4 12B」を発表した。メモリ16GBのノートPCでも動作可能で、ベンチマークはより大型の「Gemma 4
Yahoo!ニュース IT
2026年6月4日
グーグル、マルチモーダルAIモデル「Gemma 4 12B」　ノートPCで動作(Impress Watch)
Google DeepMindは3日、マルチモーダルAIモデル「Gemma 4 12B」を発表した。ノートPC上で動作するエージェント型マルチモーダルAIを想定したモデルで、16GBのVRAMまたはユ
Yahoo!ニュース IT
2026年6月4日
16GB RAMで高性能エージェントが動くGemma 4 12B、Google DeepMindが公開　26B MoEに迫る推論性能、エンコーダなしのマルチモーダル(テクノエッジ)
Google DeepMindが、ノートPCでの利用を想定したマルチモーダルAIモデル「Gemma 4 12B」を公開しました。Hugging FaceやKaggleからダウンロードでき、Apache
Yahoo!ニュース IT
2026年6月5日
リコー、オンプレ対応マルチモーダルLLMを開発--軽量モデルでクラウドAI級の日本語推論性能を実現(ZDNET Japan)
リコーは6月5日、日本語での高度な推論能力を備えたマルチモーダル大規模言語モデル（LMM）「Qwen3.6-Ricoh-27B-20260522」と軽量版「Qwen3.5-Ricoh-9B-2026
Yahoo!ニュース IT
2026年6月8日
Liquid AI、エッジ推論に対応する日本語の音声/言語AIモデルを無料公開
Liquid AIは6月6日、LFM2.5に日本語向けの汎用チャットモデル「LFM2.5-1.2B-JP-202606」と、マルチモーダルな音声・テキストモデル「LFM2.5-Audio-1.5B-JP」を発表した。
PC Watch
2026年6月8日
「Siri AI」新登場　「Apple Intelligence」大幅刷新、Googleと共同開発　年内に英語版
Appleは6月8日（現地時間）のWWDCで新たな音声アシスタント「Siri AI」を発表。Googleと提携して開発したマルチモーダルのAIモデル「Apple Foundation Model」を基盤に「Apple Intelligence」をアップデートし、「Siri」に組み込んだ。
ITmedia AI+
2026年6月9日
Gemma 4 12Bの紹介：統一されたエンコーダフリーのマルチモーダルモデル
Googleは、エンコーダフリーのマルチモーダルモデル「Gemma 4 12B」を発表しました。このモデルは、画像や音声といった多様なデータ形式を、単一かつ統一されたアプローチで効率的に処理する能力を持つ点が特徴です。従来のマルチモーダルAIモデルでは、異なる種類のデータを処理するためにそれぞれ専用のエンコーダを必要とすることが一般的でした。しかし、Gemma 4 12Bはエンコーダを必要としない設計を採用しており、これによりモデルの複雑さを軽減し、より柔軟なデータ統合を実現すると期待されています。 Google DeepMindの研究チームは、この革新的なモデルが、より高度なAIアプリケーションの開発に大きく貢献する可能性を強調しています。特に、複雑なマルチモーダル情報を理解し、処理する必要がある分野での応用が期待されます。引用元: Google DeepMind
Google DeepMind
2026年6月9日
Gemma 4 12B: 統合されたエンコーダーフリーのマルチモーダルモデルが登場
Gemma 4 12Bは、AIモデルの新しい世代であり、テキスト、画像、動画、音声など、さまざまな種類のデータを理解し、処理するように設計されています。
Google DeepMind
2026年6月10日
感覚から意思決定へ：マルチモーダルLLMにおける聴覚・視覚知覚の情報フロー
arXiv:2606.10147v1 新規発表。マルチモーダル大規模言語モデル（MLLM）は、聞くことと見ることが可能ですが、音声と視覚の信号はどのようにネットワークを通過して回答を形成するのでしょうか？研究や実世界での応用においてその役割が増大しているにもかかわらず、音声と視覚のトークンが最終的な予測にどのように影響を与えるかの内部経路は、依然として十分に理解されていません。本研究では、音声・視覚大規模言語モデル（AVLLM）内部の音声・視覚情報フローを調査し、2つの入力構成、すなわち音声・視覚ビデオと複数のインターリーブされた音声・視覚アイテムにおいて、AVLLMが音声と視覚の情報をどのようにルーティング、利用、統合するかを追跡します。音声・視覚ビデオの場合、AVLLMはVLMやVideoLLMで確立されたシーケンシャルな情報フロー経路に従い、音声と視覚の貢献は、タスクが各モダリティに依存する割合に応じてこの経路を流れることがわかりました。複数のインターリーブされた音声・視覚アイテムがある設定では、このルーティングは異なる並列ストリームにシフトします。
arXiv cs.AI
2026年6月10日
SynIB：マルチモーダル学習におけるシナジーを最大化するための情報ボトルネック
arXiv:2606.09853v1 新規発表要旨：マルチモーダル学習の中心的な目的は、シナジー（複数のモダリティの共同利用からのみ生じ、単一のモダリティからは利用できない、タスク関連情報）を捉えることです。ほとんどのアプローチは、より大きく複雑なフュージョンモデルを通じたアーキテクチャレベルで動作しますが、我々は補完的な軸として、トレーニング目的自体を形成することを提案します。標準的なトレーニングは、しばしば単峰性または冗長な情報を強調し、クロスモーダル推論を必要とする例では不十分です。我々は情報理論を通じてマルチモーダルシナジーを形式化し、シナジーを直接ターゲットとするスケーラブルな目的であるシナジスティック情報ボトルネック（SynIB）を導入します。シナジー学習を優先するために、SynIBはモデルがすべてのモダリティから正確に予測することを動機付け、同時にいずれかのモダリティからの情報が抑制された場合に自信を罰します。
arXiv cs.LG
2026年6月11日
マルチモーダル言語モデルによるソーシャルメディア上のAI生成コンテンツの検出
arXiv:2606.11200v1 発表タイプ: new 要旨: 生成AIにより、フォトリアルな画像や動画の作成が可能になり、これらはソーシャルメディアで拡散されることが増えています。しばしば、スパム、偽情報、操作、詐欺に利用されます。既存のAI生成コンテンツ（AIGC）検出方法は、新しい生成モデルへの汎化性能の低さ、単一モダリティへの依存、解釈可能な説明の欠如といった課題に直面しています。本稿では、多様なマルチモーダルソーシャルメディアデータを継続的にキュレーションし、検出と説明のためにコンパクトなビジョン・言語モデルをトレーニングすることで、これらの問題を軽減するパイプラインを提案します。提案モデルは、公開ベンチマークにおいて最先端の検出性能を達成し、複数のプラットフォームにわたる内部ソーシャルメディアデータセットで堅牢な検出および説明能力を示します。
arXiv cs.CL
2026年6月11日
ProcessThinker：ロールアウトベースのプロセス報酬によるマルチモーダル大規模言語モデルの推論能力強化
arXiv:2606.11209v1 新規発表要旨：ビジュアル質問応答は、ますます多段階の推論を必要としています。検証可能な報酬（RLVR）とグループ相対ポリシー最適化（GRPO）を用いた近年の強化学習による事後学習は、マルチモーダル推論を改善できますが、ほとんどのアプローチは、結果のみの疎な報酬に依存しています。その結果、不正解が推論の終盤の小さな間違いに起因するのか、それとも最初から役に立たない推論経路に起因するのかを判断するのが困難です。一般的な解決策は、ステップレベルの監督のためにプロセス報酬モデル（PRM）をトレーニングすることですが、これには通常、大規模で高品質な思考連鎖の注釈と追加のトレーニングコストが必要です。本研究では、明示的なPRMをトレーニングすることなく、ステップレベルのプロセス報酬を提供する実用的な事後学習パイプラインであるProcessThinkerを提案します。
arXiv cs.CL
2026年6月11日
安全データシートからの情報抽出における大規模言語モデルのベンチマーク
安全データシート（SDS）からの構造化情報の正確な抽出は、文書形式の多様性や従来のルールベース手法の限界から、産業安全分野では依然として課題となっています。本研究では、自動SDSデータ抽出のための最新の大規模言語モデル（LLM）をベンチマークし、テキストベースおよびマルチモーダル処理パイプラインを比較します。Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70Bの4つのモデルを、ゼロショット、フューショット、連鎖思考（Chain-of-Thought）の3つのプロンプト戦略で体系的に評価しました。評価フレームワークでは、50,000以上の抽出データフィールドにわたる精度、レイテンシ、コストを評価しました。結果として、テキストベースの抽出は、すべての指標においてマルチモーダル処理を常に上回ることが示されました。Chain-of-Thoughtプロンプトと組み合わせたGemini 1.5 Proが最高の精度（84%）を達成し、GPT-4o（81%）とClaude 3.7 Sonnet（79%）を上回りました。
arXiv cs.CL
2026年6月11日
Google、最大4倍高速なLLM「DiffusionGemma」無償公開(PC Watch)
Googleは6月10日、テキスト拡散(text diffusion)と呼ばれる手法により、テキスト生成速度を最大4倍高速化できるというマルチモーダルLLM「DiffusionGemma」を発表した
Yahoo!ニュース IT
2026年6月11日
Google、最大4倍高速なLLM「DiffusionGemma」無償公開
Googleは6月10日、テキスト拡散(text diffusion)と呼ばれる手法により、テキスト生成速度を最大4倍高速化できるというマルチモーダルLLM「DiffusionGemma」を発表した。現時点では実験段階となっている。
PC Watch
2026年6月12日
Microsoft AI、独自開発のAIモデル「MAI」7種を一挙発表～推論から画像、音声まで／他社モデルからの蒸留なし、出所不明のデータに頼らず、全部自社で
米MicrosoftのAI部門であるMicrosoft AIは6月2日（現地時間）、独自開発の新しいAIモデル「MAI」ファミリーを発表した。推論・コーディング・画像・音声・文字起こしをカバーするマルチモーダルなモデル群で、以下の7つがラインナップされている。
窓の杜