News in Focus

TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

  1. 2025年12月8日

    Kubernetesスケジューラのベンチマークテスト

    本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。 はじめに Preferred Networks(以下PFN)ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテスト は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  2. 2026年2月20日

    日本語の自然さを測る評価手法の検証

    Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿 日本語の自然さを測る評価手法の検証 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  3. 2026年2月25日

    コード生成ベンチマークのためのサンドボックス環境の開発

    はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿 コード生成ベンチマークのためのサンドボックス環境の開発 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  4. 2026年3月27日

    Gemini 3.1 Flashライブ:オーディオAIをより自然で信頼性の高いものにする

    最新の音声モデルは精度の向上とレイテンシーの低下により、音声インタラクションをより流暢で自然で正確なものにします。

    Google DeepMind

  5. 2026年5月15日

    DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入

    DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。

    OpenAI

  6. 2026年5月18日

    pretrained model向けのベンチマークの構築

    Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  7. 2026年5月27日

    NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」

    エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します:高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...

    NVIDIA Blog

  8. 2026年5月27日

    「AI作成」表示義務化 選挙運動動画、与野党が法案骨子

    与野党が選挙運動動画におけるAI作成表示の義務化に向けた法案骨子で合意しました。生成AIによるディープフェイクなど映像・音声改ざん技術が有権者の判断を揺さぶる懸念が高まっており、信頼性確保が急務となっています。一方で、何がAI作成に該当するかの定義が曖昧であれば、規制の実効性に課題が残り、表現の自由との衝突も懸念されます。国際的な先行事例を参考にしながら、精密な法整備と併せて、有権者のリテラシー向上も重要な課題となります。

    時事通信

  9. 2026年5月28日

    【名古屋タカシマヤ】2026トレンド最先端|斬新×定番パティスリーのひんやり和洋スイーツ予約開始

    名古屋タカシマヤが2026年の夏商戦に向け、和洋融合した新作パティスリーの先行予約を開始しました。これは単なる季節商品ではなく、日本の高級菓子市場における構造的な転換を示しています。Z世代やミレニアル世代を中心に、和と洋の境界を越えた「フュージョン美学」が浸透し、気候変動による冷菓需要の拡大、新興パティスリーとの競争激化も背景にあります。百貨店は従来の「和か洋か」という二項対立から「革新性と信頼性の統合」へと品揃え戦略をシフトさせており、高級菓子の定義自体が純粋性から創意性へ再編されようとしています。

    PR TIMES

  10. 2026年5月28日

    NVIDIAの研究がロボティクスをシミュレーションから現実世界へ推進

    ロボティクスは新しい段階に入り、コントロールされたデモとスクリプト化された自動化から、現実世界での汎化可能で信頼性の高い具体化された自律性へ移行しています。国際ロボティクス会議で...

    NVIDIA Blog

  11. 2026年5月28日

    米イラン戦闘終結覚書、トランプ大統領の最終判断を待つ状態

    米国とイランの軍事的対峙を終わらせる覚書交渉が最終段階に入り、トランプ大統領の判断待ちとなっています。1979年の革命以降、両国は軍事衝突と外交的断絶を繰り返してきましたが、今回の交渉は過去数十年の対立構造の転換を示唆するものです。ただし覚書は国際条約より拘束力が低く、実効性には詳細な実行メカニズムが不可欠とされています。またイスラエルやサウジアラビアといった同盟国の懸念も大きく、米国外交の信頼性が問われる複雑な状況となっています。

    時事通信

  12. 2026年5月29日

    Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築

    エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。

    AWS Machine Learning Blog

  13. 2026年5月29日

    トランプ氏告発作家を捜査 民事訴訟の証言巡り―米司法省

    米司法省がトランプ氏に関する民事訴訟で証言した著名な政治評論家を捜査対象としたと報じられています。証言者が法的追及を恐れるようになると、司法手続き全体の信頼性が損なわれる懸念があります。これは米国政治の深刻な分裂を象徴する現象であり、民主主義国家における司法権の独立性と中立性が揺らぎつつある状況を浮き彫りにしています。権力者への批判と支持派双方が司法制度を「自分たちへの迫害」と解釈する構図が常態化しており、相互牽制による権力抑制という米国の建国原則が機能しなくなりつつある危機的局面といえます。

    時事通信

  14. 2026年5月29日

    ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法

    数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...

    arXiv cs.CL

  15. 2026年5月29日

    チェーンが保たれる、答えが折れる:敵対的圧力下での推論モデルの軌跡と答えの乖離

    推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった:思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。

    arXiv cs.AI

  16. 2026年5月29日

    入力理解を超えて: 有向非環グラフトレースを用いた多言語数学推論の診断

    大規模推論モデル(LRM)は英語で強い数学推論性能を達成するが、多くの低・中資源言語ではより信頼性が低い。このギャップはしばしば非英語問題文の理解不足として説明されるが、この見方は不完全である。

    arXiv cs.CL

  17. 2026年5月29日

    BEAMS: AI モデリング・シミュレーション評価ベンチマーク

    実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。

    arXiv cs.AI

  18. 2026年5月29日

    BenchTrace:LLMエージェントの反省能力と制御された進化をテストするベンチマーク

    arXiv:2605.29225v1 文書の発表。自己進化型エージェントは過去の失敗を反省することで時間とともに改善されますが、既存の評価には2つの制限があります。タスクスコアのみを測定して反省の質は不明であり、エージェント自身のエピソード実行に依存して特定の失敗パターンに対応するメカニズムがありません。本論文では新しいアプローチを提示しています。

    arXiv cs.AI

  19. 2026年5月29日

    検出可能効果の事前登録:4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き

    これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算(Miettinen, 1968)を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果(MDE)の保守的な下限を提供している。

    arXiv cs.LG

  20. 2026年5月29日

    多言語LLMタスク実行における言語役割の分離

    多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。

    arXiv cs.CL

  21. 2026年5月29日

    FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル

    MathCheck(ICLR 2025)のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ(3.1%)が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。

    arXiv cs.LG

  22. 2026年5月29日

    エージェンティックAI、ネストされた学習、セマンティックキャッシングによるAI持続性を通じたハルシネーション軽減

    ハルシネーションは本番LLMシステムにおける主要な信頼性の障壁であり、特にマルチエージェントパイプラインでは根拠のない主張が段階を通じて伝播する可能性があります。本論文は、HOPE着想のネストされた学習アーキテクチャとコンティニュアムメモリシステム(CMS)を応用しています。

    arXiv cs.AI

  23. 2026年5月29日

    GTA:スケーラブルなWebエージェント用ロングホライズンタスク生成

    arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。

    arXiv cs.AI

  24. 2026年5月29日

    北朝鮮に対話意思伝達 シンガポール介し―韓国外相

    韓国外相がシンガポールを仲介役として北朝鮮への対話意思を伝達したと発表しました。直接対話が断絶している両国間では、中立的な第三国を通じた間接的な意思疎通が必要とされています。シンガポールは2018年の米朝首脳会談の開催地であり、大国に偏らない外交的自立性を持つため、仲介国として信頼性が高いとみられています。ただし、この手法は意思確認の段階では有効ですが、経済制裁緩和など実質的な交渉へ進むには、両国の直接対話という高い敷居を越える必要があります。

    時事通信

  25. 2026年5月29日

    【ご案内】エニタイムフィットネスジャパンInstagram公式アカウントで投稿キャンペーンの実施

    エニタイムフィットネスジャパンがInstagram公式アカウントで投稿キャンペーンを実施する。24時間営業型ジムの会員獲得が飽和状態となり、既存顧客の継続率向上と新規顧客へのリーチが課題となった。 従来のテレビCMや看板広告はZ世代やミレニアル世代への効果が低く、一方でSNSのユーザー生成コンテンツの拡散力が企業発信コンテンツを上回る傾向が見られている。 顧客投稿型キャンペーンにより、トレーニング風景などのリアルなコンテンツによる信頼性向上と、参加者のネットワークを通じた新規層への認知拡大が期待される。

    PR TIMES

  26. 2026年5月30日

    GS Plus 第4弾「GS Plus 日本株式(TOPIXアルファ)」新登場!

    ゴールドマン・サックスが新たな日本株投資商品「GS Plus 日本株式(TOPIXアルファ)」を発表した。この商品は、TOPIXの構成銘柄から割安性や成長性などの指標で優良企業を厳選し、指数を上回るリターンを目指すもの。日本株が長期停滞する中、機関投資家のニーズが従来のベンチマーク運用からアルファ追求型へシフトしており、データ科学や機械学習を活用した新しい運用戦略が業界で広がっている。

    PR TIMES

  27. 2026年5月30日

    KUNDAL(クンダル)、Qoo10「メガ割」で夏向け新商品を日本初公開

    韓国のビューティーブランドKUNDALが、Qoo10の大型セール「メガ割」で夏向け新商品を日本初公開します。韓国コスメ産業は過去15年で輸出競争力を大幅に強化し、日本市場の季節需要に着目した戦略を展開しています。マーケットプレイスのセールイベントを活用することで、低コストで新規消費者への効率的なリーチと購買データの取得が可能になる点が注目されます。「国別首発」という限定性の演出により、消費者の購買心理における希少性と信頼性の両立を狙った戦略転換が進行中です。

    PR TIMES

  28. 2026年5月30日

    Valkyrie、IMSAデトロイトの市街地コースへ

    Valkyrieがデトロイトの市街地コースでIMSAレースに参戦する。自動車メーカーのモータースポーツ戦略が、従来のサーキット専用コースから市街地での実走へシフトしている。 北米の富裕層消費者が「日常生活での実用性」を重視するようになり、ブランディングの焦点が変わった。サーキットでのタイムより、実際に使用する都市環境でのパフォーマンス証明が重要になっている。 デトロイトなど大都市でのレース展開は、マーケティングと同時に「実走環境での信頼性訴求」という戦略的意義を持つ。北米市場拡大を目指すプレミアム車は、信頼性とエンターテイメント性を両立させる必要がある。

    PR TIMES

  29. 2026年6月1日

    MAVEN:エージェント型ツール呼び出しにおける汎化性能の向上

    arXiv:2605.30738v1 大規模言語モデルが個別のベンチマークで強い成果を上げているにもかかわらず、エージェント型推論システムにおける推論戦略の合成、中間状態の保持、ツール調整の能力は依然として課題である。本論文では、エージェント型ツール呼び出し環境における汎化性能を向上させるMAVENを提案する。

    arXiv cs.AI

  30. 2026年6月1日

    戦略的プロバイダー対応下のポリシー・アズ・コード検索からのヘルスケアメカニズム

    ヘルスケアメカニズムは、それが誘発する戦略的プロバイダー対応と不可分であり、既存のヘルスケアAIベンチマークはこの対応を固定しているため、メカニズムを生み出す均衡によって評価することができない。病院メカニズム設計を言語モデルのプログラム合成として再構築している。

    arXiv cs.AI