TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年6月2日
エージェント的Transformerが強化学習を通じた探索学習を証明可能に行う
木探索は多くの言語エージェント推論および意思決定タスクの背後にある中心的な抽象化です。エージェントはアクションを探索し、失敗を記憶し、有望な代替案に向かってバックトラックする必要があります。しかし、Transformerベースのポリシーがこのような探索能力をどのように習得するかについて、理論的理解が不足しています。
arXiv cs.LG
2026年6月11日
DiffusionGemma: テキスト生成が4倍高速化
Gemmaモデルを基盤とした新しいテキスト生成モデル「DiffusionGemma」は、標準的なTransformerベースのモデルよりも4倍速いテキスト生成を実現します。これは、拡散モデルのアーキテクチャをテキスト生成に適用することで達成され、特に長いテキストの生成において顕著なパフォーマンス向上が見られます。
Google DeepMind
2026年6月16日
生理信号からのマルチモーダル感情認識のための深層時間モデリングとアンサンブル融合
生理的ストレスと感情認識は、健康モニタリングと感情コンピューティングにおいて重要です。本研究では、手首と胸のセンサー信号を用いたマルチモーダル感情認識のためのWESADデータセットにおける、Long Short-Term Memory (LSTM)、Temporal Convolutional Networks (TCN)、Transformerなどの深層学習モデルの包括的な評価を提示します。手首のみ、胸のみの入力でモデルをトレーニングすることにより、各モダリティの個別の貢献度を評価するためにアブレーションスタディを実施します。さらに、マルチモーダル入力でトレーニングされた3つのアーキテクチャすべての予測を組み合わせる、レイトフュージョンアンサンブル戦略を実装します。また、各モデルに入力する前に手首と胸の信号を連結することにより、センサーレベルでの早期融合も採用します。結果は、Transformerモデルがマルチモーダル設定で一貫して最も高い精度を達成する一方、TCNモデルが手首のみの構成で最良のパフォーマンスを発揮することを示しています。
arXiv cs.CL
2026年6月16日
機械学習を用いた生体信号による試験結果予測
本研究では、試験中に収集された生理学的データを用いて試験結果を予測するために、機械学習モデルの応用を調査します。皮膚電気活動、心拍数、皮膚温などの生理学的ストレス指標を分析し、学業成績との関連性を明らかにしました。ロジスティック回帰、ランダムフォレスト、サポートベクターマシンなどの標準的なモデルから、Transformer、LSTM（Long Short-Term Memory）、GRU（Gated Recurrent Unit）モデルなどのより高度なアーキテクチャまで、さまざまな機械学習アプローチが採用されました。この多様性は、データ内の複雑な相互作用を効果的に捉えることを目的としています。Transformerの数値データ処理への適応性を評価し、この新しい文脈におけるパフォーマンスを評価することに重点が置かれました。モデルの有効性を比較するために、精度、適合率、再現率、F1スコアなどの標準的なパフォーマンスメトリックが使用されました。
arXiv cs.LG
2026年6月16日
Nemotron 3 Ultra：エージェント推論のためのオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル
5500億の総パラメータと550億のアクティブパラメータを持つMixture-of-ExpertsハイブリッドMamba-Attention言語モデル「Nemotron 3 Ultra」を紹介します。Nemotron 3 Ultraは20兆トークンのテキストで事前学習され、その後コンテキスト長を100万トークンに拡張し、教師ありファインチューニング（SFT）、強化学習（RL）、マルチティーチャー・オンポリシー蒸留（MOPD）を用いて事後学習されました。Nemotron 3 Ultraは、LatentMoE、マルチトークン予測（MTP）、NVFP4事前学習、マルチ環境RLVR、MOPD、推論バジェット制御といった複数の主要技術を採用した、これまでにない最も高性能なモデルです。Nemotron 3 Ultraは、最先端の公開LLMと比較して最大約6倍高い推論スループットを達成しながら、同等の精度を実現しています。最先端の精度、高い推論スループット、100万トークンのコンテキスト長により、Nemotron 3 Ultraは長期間実行される自律エージェントタスクに最適です。
arXiv cs.CL
2026年6月17日
薬物警戒における因果推論におけるモデル選択の重要性：InferBERTフレームワーク内での分類モデルの比較分析
因果関係のある有害薬物事象（ADE）を偽相関から区別することは、薬物警戒における中心的な課題です。InferBERTフレームワークは、TransformerモデルとDo-calculusを統合していますが、その成功は基盤となる分類モデルに依存します。本研究では、InferBERTにおけるモデル選択の影響を評価し、単純なモデルで十分か、ドメイン固有の事前学習が役立つか、LLMへのスケーリングが因果検出を改善するか、事後キャリブレーションの効果を検証します。分析対象は、Analgesics-induced Acute Liver Failure (AILF) と Tramadol-related Mortalities (TRAM) の2つのベンチマークです。XGBoost（ベースライン）、ALBERT（元のInferBERT）、BioBERT（生物医学Transformer）、Med-LLaMA（医療LLM）の4つのモデルを、20回の繰り返しで5分割交差検証を用いて評価しました。
arXiv cs.LG
2026年6月18日
人工ニューラルネットワークにおける衝撃波理論と対称性削減確率的勾配降下法の関連性
微分幾何学、リー群論、流体力学に基づき、衝撃波理論と確率的勾配降下法の対称性商化学習ダイナミクスとの間の数学的に明確な関連性を開発しました。具体的には、パラメータ対称性を商化し、局所エントロピー粗視化を適用すると、有効ダイナミクスは商多様体上の粘性ハミルトン--ヤコビ方程式を満たします。さらに、生パラメータダイナミクスが商化空間上の勾配場によって要約できると仮定すると、粗視化された損失関数の勾配はバーガース型方程式に従い、衝撃形成を厳密に確立できます。この理論を多層パーセプトロン、畳み込みニューラルネットワーク、Transformer、平均場ネットワークに適用し、それらがハミルトン--ヤコビまたはバーガース型方程式に従うことを示しました。このフレームワークは、深層学習の実用的な診断も提供すると推測しています。Transformerのようなアーキテクチャでは、生パラメータノルムは対称性冗長性によってしばしば歪められ、誤解を招く可能性がありますが、対称性補正された商観測量は、トレーニングフェーズ遷移の監視、予測、制御のための原理的な基盤を提供します。
arXiv cs.LG
2026年6月19日
OpenAI、IPOに向け大物人材を獲得
OpenAIは、IPOを前に、Transformerの共同発明者であるGoogle DeepMindのノーム・シェーザー氏と、トランプ政権のAI政策担当者であったディーン・ボール氏を同じ週に迎え入れ、組織を強化している。
TechCrunch
2026年6月24日
広範囲かつ永続的に有益なモデルに向けた強化学習
AIシステムがますます多様で重大な状況に展開されるにつれて、モデルのアラインメントはトレーニング中に seen されたタスクやドメインを超えて一般化する必要があります。これは、報酬ハッキング、詐欺、またはその他の意図しない戦略を通じて予期しないアラインメントのずれを導入する可能性がある強化学習（RL）にとって特に重要です。現実的なドメインで具体化された有益な行動に対するRLが、トレーニング分布を超えて広範囲かつ永続的なアラインメントの一般化を生み出すことができるかどうかを研究します。真実性、公平性、リスク認識、修正可能性などの有益な特性を測定およびトレーニングするために設計された現実的な状況のデータセットを構築し、健康、科学、教育を含むさまざまなドメインにまたがります。次に、このデータセットでRLを使用してモデルをトレーニングし、アラインメントと有益な行動に関する50を超える独立したベンチマークで評価します。計算量が同等のベースラインと比較して、有益な特性RLは、これらの分布外ベンチマークの80％以上でパフォーマンスを向上させます。
arXiv cs.AI
2026年6月24日
3D分子表面の指紋を解読し、正確なエピトープ予測を実現
分子表面は、抗体-抗原認識を決定する幾何学的・物理化学的パターンをエンコードしており、エピトープ予測の中心となる。しかし、既存の手法は配列やバックボーン構造に依存しており、不連続な表面駆動型エピトープを捉えるのが難しい。本研究では、分子表面表現を直接扱う表面中心の学習フレームワークであるSurfBindを提案する。SurfBindは、パッチレベルの表面モデリング、バインダー認識型クロスアテンション、階層的な粗視的-微視的予測パラダイムを備えたTransformerベースのアーキテクチャを通じて、幾何学的・物理化学的手がかりを統合する。SAbDabやDB5.5などの困難なエピトープ同定ベンチマークでの実験により、SurfBindは最先端の性能を達成し、未知の抗体や構造状態に対しても強い汎化能力を示すことが証明された。これは、タンパク質-タンパク質相互作用の重要なメカニズムを理解するために、相互作用認識型の表面モデリングがいかに価値があるかを強調するものである。
arXiv cs.LG
2026年6月24日
「Transformerの最大475倍」富士通、GPUを効率的に使うLLMアーキテクチャ「PHOTON」開発
富士通が、大規模言語モデル（LLM）を少ないGPUで動かせる新アーキテクチャ「PHOTON」（フォトン）を開発した。GPU当たりの処理性能（スループット）が、現在のLLMで主流のアーキテクチャ「Transformer」の最大475倍に達するという。
ITmedia AI+
2026年6月24日
「Transformerの最大475倍」富士通、GPUを効率的に使うLLMアーキテクチャ「PHOTON」開発(ITmedia NEWS)
富士通は6月24日、大規模言語モデル（LLM）を少ないGPUで動かせる新アーキテクチャ「PHOTON」（フォトン）を開発したと発表した。GPU当たりの処理性能（スループット）が、現在のLLMで主流の
Yahoo!ニュース IT
2026年6月25日
NVIDIA NeMo AutoModelによるTransformerのファインチューニング高速化
Transformerモデルのファインチューニングを高速化するNVIDIA NeMo AutoModelについて。
Hugging Face
2026年6月25日
富士通がAI効率を475倍にするTransformer代替アーキテクチャ「PHOTON」を開発
2026年6月24日、富士通が大規模言語モデル(LLM)の大幅なコスト削減を実現するアーキテクチャ「Parallel Hierarchical Operation for TOp-down Networks(PHOTON)」を発表しました。
はてなブックマーク IT
2026年6月25日
プロジェクト・オートワールド：ニューラル関係推論の自動ベンチマークに向けて
関係構造に関する推論は、ニューラルモデルにとって依然として大きな課題であり、特に学習した知識を訓練時よりも難しい問題インスタンスに体系的に適用しなければならない場合に顕著です。この一般化能力の評価の難しさから、進歩は妨げられています。なぜなら、事前には、何がインスタンスを難しくしているのかはほとんど明らかではないからです。本研究では、大規模言語モデル（LLM）を使用してベンチマーク生成を自動化し、エンドツーエンドでますます挑戦的なインスタンスを生成することを学習することによって、この問題にどのように対処できるかを調査します。具体的には、Datalogルールによってパラメータ化されたワールドと、推論評価者としてのEdge Transformerが与えられた場合、LLM主導の進化的探索（FunSearchに基づく）と自律的なエージェント探索を使用して、困難な問題インスタンスを生成するサンプリング関数を発見します。また、このデータを使用してEdge Transformerを改善できることも示しており、さらなるデータ摂動に対してうまく一般化します。
arXiv cs.AI
2026年6月28日
富士通、Transformerと比べ475倍効率な新LLMアーキテクチャ「PHOTON」を発表(ビジネス＋IT)
富士通は24日、大規模言語モデル（LLM）の推論にかかる計算効率を向上させる新アーキテクチャ「PHOTON」を発表した。理化学研究所などとの共同開発によるもので、従来のTransformerアーキテ
Yahoo!ニュース IT
2026年6月29日
発達的アプローチがニューラル言語モデルの統計的学習を解明：Transformerは最も抽象的な統計パターンから一般化する
本研究では、発達的アプローチを用いて、ニューラル言語モデル（NLM）の統計的学習と精神的表現を調査する。一連のGenerative Transformerモデルを合成文法で学習させる。モデルの状態は、学習の過程で複数の段階で保存される。学習パスにおけるこれらのモデルの内部表現の変化を分析した結果、NLMは学習の初期段階で最も抽象的なグローバル統計知識を獲得し、その後、比較的局所的な統計的依存関係を獲得することがわかった。この学習パスには、最初から多くの過剰一般化が含まれており、これらの過剰一般化は学習の後期段階で徐々に制約される。この観察に基づき、NLMの統計的学習と言語認知を説明する新しいフレームワークを提案する。
arXiv cs.CL
2026年6月29日
Prism Transformer: 階層的アテンション処理のためのプログレッシブヘッドスケジューリング
従来のマルチヘッドアテンションでは、隠れ次元をすべてのヘッドに各層で等しく分割し、モデルの深さ全体で同一の表現部分空間次元（dh = dmodel/h）を強制していました。本研究では、この均一な割り当てを根本的な構造的ボトルネックとして特定しました。次元空間が制限されているため、初期層のヘッドは複雑で高次元の文脈パターンを忠実に捉えることができません。これを解決するため、静的で均一なヘッド構成をプログレッシブヘッドスケジューリングに置き換える新しいアーキテクチャパラダイムであるPrism Transformerを導入します。層を重ねるごとにヘッド数を単調に増加させることで、Prism Transformerは自然に局所から大域への表現階層を確立します。初期層は、より少なく例外的に幅の広いヘッドを活用して複雑な局所的構成パターンを捉える一方、深い層は多くの狭いヘッドを展開してこれらのパターンを専門的な言語的特徴に分解します。
arXiv cs.LG
2026年6月30日
DiScoFormer：密度とスコアを統一するTransformer、分布を超えて
DiScoFormerは、密度推定とスコア関数推定の両方に対応する単一のTransformerモデルです。これにより、異なるデータ分布にわたる統一的なアプローチが可能になります。
Hugging Face