TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2025年12月8日
Kubernetesスケジューラのベンチマークテスト
本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。はじめに Preferred Networks（以下PFN）ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテストは Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年1月16日
Listen Labs、バイラルな看板採用キャンペーンでAI顧客インタビューをスケールさせるために6,900万ドルを調達
アルフレッド・ワールフォルスは選択肢がなくなってきていた。彼のスタートアップ Listen Labs は100人以上のエンジニアを雇う必要があったが、マーク・ザッカーバーグと競争していた。
VentureBeat AI
2026年2月20日
日本語の自然さを測る評価手法の検証
Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿日本語の自然さを測る評価手法の検証は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月25日
コード生成ベンチマークのためのサンドボックス環境の開発
はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿コード生成ベンチマークのためのサンドボックス環境の開発は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月15日
DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入
DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。
OpenAI
2026年5月18日
pretrained model向けのベンチマークの構築
Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月27日
NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」
エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します：高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...
NVIDIA Blog
2026年5月28日
ジェイミー・ダイモンがJPモルガン・チェースは買収に200億ドル使う可能性があると述べる：「われわれは注視している」
200億ドルの取引はJPモルガンの歴史の中でも最大級となり、米国最大資産銀行としての地位を考えると規制当局の精査を招く可能性がある。
CNBC Business
2026年5月28日
ブルージェイズ岡本和真 11号勝ち越しホームランで勝利に貢献
トロント・ブルージェイズの岡本和真選手がシーズン11号ホームランを放ち、試合の勝ち越し点となりました。メジャーリーグの決定的な場面でのホームラン出現は統計的に希少であり、この一本は岡本選手への厚い信頼を物語っています。日本式の確実性重視の打撃哲学とメジャーリーグのパワー指標が融合した岡本選手の活躍は、日本人メジャーリーガーが国際競争力を高めていることを示す象徴的な成果となっています。
NHK
2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
高橋文哉が蒼井優のドラマ「Tシャツが乾くまで」に出演、“低体温でドライ”な喫茶店店員役
蒼井優が主演を務めるTBS系金曜ドラマ「Tシャツが乾くまで」に、高橋文哉が参加することがわかった。2023年に金曜ドラマ「フェルマーの料理」でGP帯の連ドラ初主演を飾った高橋。同枠のドラマ出演に「再び戻ってくることができたという感覚でとてもうれしく思っています」と喜びをあらわにしている。
映画ナタリー
2026年5月29日
ファンがジェイ・ウィーラーをラテン音楽の「お気に入りボイス」と呼ぶ理由
プエルトリコの人気スター・ジェイ・ウィーラーが、トラップとレゲトンのルーツをたどるアルバム「ラ・ボス・ファボリータ」で戻ってきた
Rolling Stone
2026年5月29日
スピルバーグの新作映画「ディスクロージャー・デイ」公開が後ろ倒し、7月から10月に
スティーヴン・スピルバーグの最新作「ディスクロージャー・デイ」の公開日が7月10日から10月1日に変更されることが明らかに。配給の東宝東和が本日5月29日、発表した。
映画ナタリー
2026年5月29日
「トワウォ」ルイス・クーの龍捲風がフィギュア化、叉焼飯も付属　台座は理髪店の床
香港映画「トワイライト・ウォリアーズ決戦！九龍城砦」でルイス・クーが演じた龍捲風（ロンギュンフォン）が、ホットトイズの「ムービー・マスターピース」シリーズに登場。本日5月29日正午にトイサピエンス限定で予約受付がスタートした。9月の発売を予定している。価格は税込4万5000円。
映画ナタリー
2026年5月29日
PAST2HARM: マルチモーダルAIのジェイルブレイク用シンプル適応型過去形攻撃
マルチモーダルAIシステムへのジェイルブレイク攻撃は未だ十分に研究されていません。テキストの不安全な生成よりも深刻な結果をもたらす可能性のある不安全な画像生成が存在する一方で、現在の防御策は比較的成熟していません。本研究ではPAST2HARMという、拒否トレーニングをバイパスする効果的な適応型ジェイルブレイクフレームワークを紹介します。
arXiv cs.CL
2026年5月29日
BEAMS: AI モデリング・シミュレーション評価ベンチマーク
実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。
arXiv cs.AI
2026年5月29日
BenchTrace：LLMエージェントの反省能力と制御された進化をテストするベンチマーク
arXiv:2605.29225v1 文書の発表。自己進化型エージェントは過去の失敗を反省することで時間とともに改善されますが、既存の評価には2つの制限があります。タスクスコアのみを測定して反省の質は不明であり、エージェント自身のエピソード実行に依存して特定の失敗パターンに対応するメカニズムがありません。本論文では新しいアプローチを提示しています。
arXiv cs.AI
2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
チェーンが保たれる、答えが折れる：敵対的圧力下での推論モデルの軌跡と答えの乖離
推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった：思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。
arXiv cs.AI
2026年5月29日
検出可能効果の事前登録：4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き
これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算（Miettinen, 1968）を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果（MDE）の保守的な下限を提供している。
arXiv cs.LG
2026年5月29日
GTA：スケーラブルなWebエージェント用ロングホライズンタスク生成
arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。
arXiv cs.AI
2026年5月29日
FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル
MathCheck（ICLR 2025）のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ（3.1%）が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。
arXiv cs.LG
2026年5月29日
多言語LLMタスク実行における言語役割の分離
多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。
arXiv cs.CL
2026年5月29日
岩田剛典、キャプテン翼コラボのレノボ新CMに楽曲書き下ろし
GAN（岩田剛典）の新曲「RISE NOW」を使用したレノボ・ジャパンによる日本独自キャンペーン「技術がゲームを変える。」の新テレビCM「技術がゲームを変える。」編が、5月31日より全国でオンエアされる。
音楽ナタリー
2026年5月29日
『ザ・ラスト・バイキング』評論：型破りなデンマーク発クライムコメディがマッズ・ミケルセンを意外な配役で起用
『婚礼の日』『より良い世界のために』など数多くの人気アートハウス作品を手がけた多作の脚本家による本作は、マッズ・ミケルセンをこれまでのイメージから大きく異なる役柄で配役している。
Variety
2026年5月29日
勝者と敗者：スピルバーグのUFO衝突とトム・ハーディのトレーラー騒動
スティーヴン・スピルバーグの『ディスクロージャー・デイ』が話題を呼ぶ。トム・ハーディは無関心。マイルス・テラーはストライサンド効果を発見。ケーン・パーソンズとカリー・バークが...
The Hollywood Reporter
2026年5月30日
ダニエル・ブールドのコロナ禍時代の賭け
コロナ禍の最中にル・パビヨンをオープンしてから5年後、ミシュラン星獲得シェフでディネックス・グループのオーナー、ダニエル・ブールドとSLグリーンのCEO マーク・ホリンスワースが関わる事業について報道されている。
Bloomberg
2026年5月30日
『ハーフ・マン』エミー賞提出作品が明かされる：リチャード・ガッドが助演で、ジェイミー・ベルがHBO限定シリーズのプッシュをリード（独占）
『ハーフ』の男たちがエミー賞のために分かれる。リチャード・ガッドが制作したHBO Maxミニシリーズは、木曜日に6話の放送を終えた。
Variety
2026年5月30日
ルーラ大統領、ブラジルの麻薬組織に対する米国テロ指定を拒否
ルイス・イナシオ・ルーラ・ダ・シルヴァ大統領は、ブラジルの主要犯罪集団2つをテロ組織と指定した米国の決定を猛烈に批判し、これを脅威と呼んだ。
Bloomberg
2026年5月30日
GS Plus 第4弾「GS Plus 日本株式（TOPIXアルファ）」新登場！
ゴールドマン・サックスが新たな日本株投資商品「GS Plus 日本株式（TOPIXアルファ）」を発表した。この商品は、TOPIXの構成銘柄から割安性や成長性などの指標で優良企業を厳選し、指数を上回るリターンを目指すもの。日本株が長期停滞する中、機関投資家のニーズが従来のベンチマーク運用からアルファ追求型へシフトしており、データ科学や機械学習を活用した新しい運用戦略が業界で広がっている。
PR TIMES