TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2025年12月8日
Kubernetesスケジューラのベンチマークテスト
本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。はじめに Preferred Networks（以下PFN）ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテストは Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月20日
日本語の自然さを測る評価手法の検証
Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿日本語の自然さを測る評価手法の検証は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月25日
コード生成ベンチマークのためのサンドボックス環境の開発
はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿コード生成ベンチマークのためのサンドボックス環境の開発は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月15日
DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入
DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。
OpenAI
2026年5月18日
pretrained model向けのベンチマークの構築
Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月27日
NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」
エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します：高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...
NVIDIA Blog
2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
生成AIの普及が後押し、インディゲームレーベル「WorldMap」／Monthly Pitch! スタートアップの扉
本稿はサイバーエージェント・キャピタルに掲載された記事からの転載サービス概要：インディゲームレーベル「WorldMap」を運営するのは、トライシステム社。ゲームクリエイターやタイトルの支援を通じてインディゲームの価値 […]
THE BRIDGE
2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
多言語LLMタスク実行における言語役割の分離
多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。
arXiv cs.CL
2026年5月29日
検出可能効果の事前登録：4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き
これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算（Miettinen, 1968）を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果（MDE）の保守的な下限を提供している。
arXiv cs.LG
2026年5月29日
BEAMS: AI モデリング・シミュレーション評価ベンチマーク
実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。
arXiv cs.AI
2026年5月29日
BenchTrace：LLMエージェントの反省能力と制御された進化をテストするベンチマーク
arXiv:2605.29225v1 文書の発表。自己進化型エージェントは過去の失敗を反省することで時間とともに改善されますが、既存の評価には2つの制限があります。タスクスコアのみを測定して反省の質は不明であり、エージェント自身のエピソード実行に依存して特定の失敗パターンに対応するメカニズムがありません。本論文では新しいアプローチを提示しています。
arXiv cs.AI
2026年5月29日
GTA：スケーラブルなWebエージェント用ロングホライズンタスク生成
arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。
arXiv cs.AI
2026年5月29日
FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル
MathCheck（ICLR 2025）のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ（3.1%）が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。
arXiv cs.LG
2026年5月29日
チェーンが保たれる、答えが折れる：敵対的圧力下での推論モデルの軌跡と答えの乖離
推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった：思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。
arXiv cs.AI
2026年5月29日
アンダーソン・クーパーとアンディ・コーエン、『インディペンデンス・イブ・ライブ』カウントダウンで再共演
このコンビは通常12月にタイムズスクエアでCNNの大晦日ライブを主催している
Rolling Stone
2026年5月29日
迷宮の最深層を目指す道中では，モンスター料理が攻略のカギとなる。ダンジョンサバイバル「Abyss Ring」，体験版配信開始
インディー開発スタジオNorthernStudioは，新作タイトル「AbyssRing」の体験版をSteamで配信開始した。本作はランダム生成されるダンジョンを探索し，モンスターと戦い，料理にして生き延びながら，迷宮の最深層を目指すサバイバルアクションゲームだ。
4Gamer.net
2026年5月29日
公爵家唯一の生き残りのお嬢様を，感情を持たぬオートマトンの執事が守る。スチームパンク2Dアクション「モジュールバーサーク(MODULE:BERSERK)」［BitSummit］
「モジュールバーサーク」（MODULE:BERSERK）は，映画「ジョン・ウィック」や「レオン」に影響を受けた韓国人学生が率いるインディー開発チームが手掛ける作品だ。代表に話を聞いた。
4Gamer.net
2026年5月29日
インディゴ、中東情勢によるコスト上昇で予想外の赤字計上
アジア最大のLCC（格安航空会社）であるインディゴは、コスト圧力、運航の混乱、および中東情勢に関連した需要の弱まりの中で、予想外の四半期赤字を報告しました。
Bloomberg
2026年5月30日
GS Plus 第4弾「GS Plus 日本株式（TOPIXアルファ）」新登場！
ゴールドマン・サックスが新たな日本株投資商品「GS Plus 日本株式（TOPIXアルファ）」を発表した。この商品は、TOPIXの構成銘柄から割安性や成長性などの指標で優良企業を厳選し、指数を上回るリターンを目指すもの。日本株が長期停滞する中、機関投資家のニーズが従来のベンチマーク運用からアルファ追求型へシフトしており、データ科学や機械学習を活用した新しい運用戦略が業界で広がっている。
PR TIMES
2026年5月30日
季節の変わり目と心身の不調に関する調査（2026年）｜不調時も「まずは自分でできる対策を試したい」35.5％
◆調査のファインディング（要点まとめ） ◆季節の変わり目に何らかの不調を感じた人は65.9％最多は「疲労感・だるさ」で33.8％ ◆睡眠・ストレス不調の主な原因、全体1位は「経済的な心配」41.0％特に20代では54...
PR TIMES
2026年5月30日
Odencatブースで，不思議なテレビのチャンネルを回してみたら。「Dream Channel Zero」は，笑いとホラーがごちゃっと混ざったADV［BitSummit］
BitSummitに出展されたインディーゲーム「Dream Channel Zero」は、テレビのチャンネル操作を物語進行の手段にした実験的なアドベンチャーゲームです。プレイヤーがリモコンでチャンネルを切り替えると異なる時空間へ移動し、ホラーとコメディが混在した独特の世界観を体験できます。相反する感情を意図的に交錯させる手法により、従来のゲームより高い没入感と違和感を同時に生み出すことが特徴で、これは2020年代後半のインディーゲームの新しいトレンドを象徴しています。
4Gamer.net
2026年5月30日
The Deity、新曲「Rusty 54 years old」をリリース。全楽曲100万回再生を突破、“異例の拡大”を続ける注目アーティスト
The Deityが新曲「Rusty 54 years old」をリリースし、全楽曲の累積再生数が100万回を突破しました。音楽配信プラットフォームの普及により、メジャーデビューを経ずに直接リスナーと繋がるアーティストが増えており、同アーティストの成功事例はこうした構造的な変化を示唆しています。継続的な作品投入と段階的な展開戦略により、インディーズアーティストでも長期的なファン獲得が可能になりつつあります。
PR TIMES
2026年5月30日
【機能アップデート】無料のAI自動作曲サイト「Tad AI」、最高峰の生成モデルを統合し、プロ顔負けの音楽生成を実現！
無料のAI自動作曲サイト「Tad AI」が最新の生成モデルを統合し、専門的な音楽制作ツールと同等の品質を実現しました。これにより、YouTuberやインディーゲーム開発者など、従来は高額な制作費を負担していた創作者が、低コストで高品質な楽曲を手に入れられるようになります。音楽制作の敷居が大きく下がり、創作活動の民主化が進む一方で、著作権問題や既存音楽業界への影響など、法的・経済的な課題も同時に浮上しています。
PR TIMES
2026年6月1日
Netflixドラマ『Beef』シーズン2のスコアで「ウィアード」化、フィネアスの初エミー賞受賞の可能性
ドラマ製作総指揮のリー・ソンジンのオリジナリティと2010年代のインディーズ参考資料を基に、グラミー賞とアカデミー賞を受賞したアーティストが緊迫したシンセサイザー音楽を制作しました。
The Hollywood Reporter
2026年6月1日
戦略的プロバイダー対応下のポリシー・アズ・コード検索からのヘルスケアメカニズム
ヘルスケアメカニズムは、それが誘発する戦略的プロバイダー対応と不可分であり、既存のヘルスケアAIベンチマークはこの対応を固定しているため、メカニズムを生み出す均衡によって評価することができない。病院メカニズム設計を言語モデルのプログラム合成として再構築している。
arXiv cs.AI
2026年6月1日
TeachObs：マルチモーダル教授観察とモデル評価のための人間検証済みベンチマーク
教室ビデオには観察可能な教授実践が含まれていますが、その教育学的および視覚的シグナルはモデル評価に適した形式で整理されることはめったにありません。本研究では、教室ビデオにおけるマルチモーダル教授観察のための人間検証済みベンチマークである「TeachObs」を提示します。TeachObsには30件のデータが含まれています。
arXiv cs.CL
2026年6月1日
CanLegalRAGBench：カナダ判例法に対する検索拡張生成の評価
RAGベースの法律アシスタントの人気が高まっているが、LLMの幻覚問題は依然として重要な課題であり、正義に�悪影響を及ぼす可能性がある。ベンチマークは開発されているが、多くは合成クエリに依存しており、現実的な法律シナリオではない。さらに、カナダ法は未だ十分に評価されていない。
arXiv cs.CL
2026年6月1日
EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマーク
臨床意思決定（CDM）は現実の臨床業務の中心であり、臨床医は不完全な証拠の下で診断を推測し、治療を選択し、将来の健康転帰を予測する。LLMは強い言語能力と広範なバイオメディカル知識により、これらの決定をサポートするために次第に使用されている。
arXiv cs.AI