TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月30日
遺伝子発現マスキングによる効果的な生物学的表現学習
遺伝子発現データの自動学習モデルが開発される RNA配列決定データから遺伝子発現パターンを効率的に学習する新しい自己教師あり学習モデル「TxFM」がarXivで報告された。このモデルはマスク付きオートエンコーディング手法を採用しており、RNA分析に付きものの技術的ノイズや異なる実験条件によるバッチ効果に対応できるのが特徴である。従来の生物学的データ分析では、こうした外部要因の影響を除去するために手作業による前処理が必要だったが、TxFMはモデル内で自動的に対応する。開発チームは転移学習の性能向上を実証するため、約140万件のRNA配列データを集めた公開学習用データセット「DiverseRNA-1.4M」を整備した。このデータセットを用いた実験では、従来手法と比べて学習効率が向上したという。今後、このアプローチは遺伝子発現解析の標準的な手法として活用される可能性がある。 (arXiv cs.LG)
arXiv cs.LG
2026年6月2日
古い観察をマスキングすることは検索エージェントに役立つ - その時までは：レジームマップとそのメカニズム
長期間の検索エージェントは多くのツール呼び出しにおいて大量の取得コンテンツを蓄積するため、コンテキスト予算効率がますます重要になります。最小限の介入は軌跡の進行に伴い、コンテキストから古い観察をマスキングすることですが、このタイプのコンテキスト処理がいつ有効であるかは依然として不明です。
arXiv cs.CL
2026年6月4日
BBOmix: 生物学的表現学習の教師なしハイパーパラメータ最適化タビュラーベンチマーク
遺伝子発現データの解析を効率化する新しいベンチマークツールが開発されました。大規模な生物学的データを処理する際、深層学習モデルの性能は初期設定値であるハイパーパラメータに大きく左右されますが、最適な値を見つけるには膨大な計算時間が必要でした。研究チームが公開した「BBOmix」は、実際の高スループットシーケンシングデータを用いた初のベンチマークデータセットです。異なる4種類のオートエンコーダアーキテクチャと7種類のマルチオミクスモダリティにおける105,000の評価結果を収録しており、研究者は膨大な計算なしに最適なパラメータ値を参照できるようになります。このツールにより、遺伝子発現データから有用な特徴を抽出する処理が加速され、医療研究や創薬開発への応用が期待されます。（arXiv cs.LG）
2026年6月6日
年齢を測る：遺伝子発現バイオマーカーを使ったトランスクリプトーム時計で死亡率と寿命を予測する(Nature)
長寿の研究者は長年、個人の健康状態と寿命を予測するために使用できるバイオマーカーを探し求めてきた。DNAのメチル化に基づくエピジェネティック時計は、この目標を前進させてきたものの、その根底にある生物学的過程については限られた知見しか得られていない。
Nature 日本語
2026年6月17日
「名前付け便利すぎる」「天才すぎ」小学生ママ必見、マスキングテープ活用術に反響 “一瞬で終わる”裏ワザ7選
ママが笑顔になる暮らしアイデアを発信している、ゆっこさん（@yucco__kurashi）が、17日までに自身のインスタグラムを更新。マスキングテープを活用したライフハック7選を紹介した。
産経新聞
2026年6月18日
CODEBLOCK：適切な粒度でのコード監視学習
コードLLMの教師ありファインチューニングでは、通常、すべての応答トークンに均一なクロスエントロピー損失を適用し、すべてのトークンが等しく有用な学習信号を提供するという暗黙の前提があります。最近のトークンレベル選択手法は、高価値トークンのみを監視することで、自然言語SFTにおけるこの前提に異議を唱えています。しかし、トークンレベルのマスキングをコードに直接転送すると、コードは構造的な完全性と定義-使用関係に依存するため、構文的および意味的に一貫したプログラムユニットが壊れる可能性があります。そこで、私たちは独立したトークンではなく、構造的に完全なコード証拠を選択する構造認識型スパース監視フレームワークであるCodeBlockを提案します。CodeBlockは、まず高品質な命令-応答ペアを選択し、次にコード応答を構文的に一貫したコーディングアイテムに分割し、コアロジックトークンに対する一般化クロスエントロピーを集計してその有用性を推定し、データフローの到達範囲とブリッジ信号で再ランク付けして、重要なプログラム依存関係を伝播または接続するブロックを優先します。
arXiv cs.LG
2026年6月19日
拡散言語モデル：実験的分析
大規模言語モデル（LLM）は、自己回帰的生成によって言語モデリングに革命をもたらし、幅広いタスクで高いパフォーマンスを実現しました。最近、拡散言語モデル（DLM）は、次トークン予測ではなく反復的なノイズ除去を通じてテキストを生成する代替パラダイムとして登場し、シーケンス全体の並列的な洗練を可能にしました。多数の拡散ベースのアーキテクチャが提案されていますが、評価プロトコル、データセット、推論予算、生成ハイパーパラメータの違いにより、それらの能力を比較し、提供されるトレードオフを理解することが困難になっています。本研究では、最新のDLMの体系的な実験的分析を提示します。具体的には、推論、コーディング、翻訳、知識、構造化問題解決を網羅する8つのベンチマークで8つの最先端DLMを評価し、生成品質と計算効率の両方を明確に考慮します。下流タスクの評価を超えて、ノイズ除去ステップ、コンテキスト長、ブロックサイズ、並列アンマスキング戦略を含む、推論時間における主要因子の影響を分析し、大規模な実験を、同一条件下でトレーニングされた小規模モデルの制御された比較によって補完します。
arXiv cs.AI
2026年6月20日
クエリはどこに配置すべきか？デコーディングダイナミクスによる拡散LLMにおけるコンテキスト内学習のポジショナルバイアスの解明と緩和
コンテキスト内学習（ICL）は自己回帰（AR）LLMで広く研究されているが、拡散大規模言語モデル（dLLM）におけるそのメカニズムはほとんど未解明のままである。ARモデルは単方向の因果マスキングに制約されるのに対し、dLLMは本質的に双方向アテンションを利用し、クエリ配置に広範な空間的柔軟性を提供する。しかし、現在の実践ではARスタイルの後続クエリテンプレートが慣習的に継承されており、構造的なパラダイムシフトが見過ごされがちである。本稿では、クエリ位置がdLLMにおいて実際に一次変数であることを明らかにする包括的な分析を提示する。経験的な分離を通じて、位置の変動が例のセマンティック品質と同等に生成品質に影響を与えることを実証する。内部的には、この位置的感度は、アテンションフローにおける空間的な「新近性効果」と、デコーディング軌跡におけるタスク依存的なシフトに起因する。正解ラベルなしでこの不安定性を緩和するために、従来の単一ステップ信頼度（C_decoded）がdLLMでは失敗することを明らかにする。
arXiv cs.CL
2026年6月23日
FirstPass：AIの科学的判断を複数回の編集結果で裏付け
査読AIシステムは、コンピューターサイエンスと機械学習分野のみで学習し、科学を検証する反復的な対話を無視し、実際の編集判断ではなく、スタイルの模倣を評価するという3つの点で失敗します。これらすべてに対処するデータセットとファインチューニングモデル「FirstPass」を提案します。Nature Communicationsの5つの科学分野（生物学、化学、神経科学、物理学、地球科学）からの3,668件の完全な複数回の査読対話をキュレーションし、必須の透明性のある査読（2022年11月導入）を活用し、自動監査によって100%のコンテンツ完全性を検証します。Qwen2.5-7B-InstructをLow-Rank Adaptation（LoRA）でファインチューニングし、レビュー生成、査読者更新、改訂サイクル予測の3つのタスクを実行します。当社の主な発見は、応答のみの損失マスキングが最適化ではなく前提条件であるということです。これがない場合、精度は62.0%で、多数派ベースラインを下回ります。
arXiv cs.CL
2026年6月30日
scKDGM: KAN誘導型動的グラフマスキング学習による単一細胞RNAシーケンス・クラスタリング
単一細胞RNAシーケンス（scRNA-seq）のクラスタリングは細胞タイプの同定に不可欠ですが、高次元性、スパース性、ドロップアウト、技術的ノイズが堅牢な発現表現と細胞グラフ構築を妨げます。既存のマスクトランスフォーマーは主に特徴再構築のための発現回復を使用しますが、グラフクラスタリング手法は通常、固定されたKNNグラフに依存し、回復された発現をグラフ最適化にフィードバックしません。本研究では、scRNA-seqクラスタリングのためのKAN誘導型動的グラフマスキング学習フレームワークであるscKDGMを提案します。scKDGMは、細胞アイデンティティを摂動させるグラフ認識型分布保持型遺伝子マスキング（GDP-Mask）、マスクビュー表現を学習するためのKANベースのTAKGCNエンコーダー、動的グラフを構築するためのマスク誘導型発現回復、および回復シグナルをトポロジー更新に転送するためのクロスビュー対照学習を使用します。ZINB損失は過分散とゼロインフレーションをモデル化します。
arXiv cs.LG
2026年7月2日
残余コンテキスト拡散言語モデル
拡散大規模言語モデル（dLLM）は、複数のトークンを並列でデコードできるため、純粋な自己回帰言語モデルの有望な代替手段として登場しました。しかし、最先端のブロックごとのdLLMは、「リマスキング」メカニズムに依存しており、これは最も確信度の高いトークンのみをデコードし、残りを破棄するため、実質的に計算が無駄になります。これらの破棄されたトークンから計算を再利用することが有益であることを示します。
Apple Machine Learning Research
2026年7月2日
拡散言語モデルにおけるアンマスキングポリシーの学習
拡散（大規模）言語モデル（dLLM）は、多くのタスクで自己回帰型モデルと同等の下流性能を発揮するようになり、推論時の効率性向上も期待されています。dLLMの重要な設計要素の一つは、各拡散ステップでどのトークンをアンマスクするかを選択するサンプリング手順です。
Apple Machine Learning Research