ai2026/6/8 13:00:00

画像: Pexels
CrowdMath: クラウドソーシングされた数学研究討論のデータセット
ニュース概要
大規模言語モデルは数学的推論において大きな進展を遂げていますが、既存のベンチマークは最終答案、段階的な解法、または完全な証明といった確定的な問題を評価するのが一般的です。本研究は、参加者が部分的な議論を提案し、先行する段階の不備を特定し、不完全な推論を修正し、段階的な貢献を徐々に統合していくという、協調的なオープン問題解決のプロセスをとらえた新しいデータセット「CrowdMath」を紹介します。これはMIT PRIMES--Art of Problem Solving (AoPS) CrowdMathプログラム(2016-2025)から164個の専門家による注釈付きの進捗チェーンで構成されており、その討論は査読済み論文に至っています。各チェーンはオープン問題の陳述から完成した証明まで、複数の参加者によるフォーラム討論の過程を追跡しています。投稿は部分的進捗、証明の完成、誤った推論、誤りの特定を含む、進化する解答プロセスにおける機能的役割によってラベル付けされています。
ニュースタイムライン
2026年5月28日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築AWS Machine Learning Blog
2026年6月1日
ImmigrationQA:米国移民法向けのソースグラウンデッドデータセットと小規模モデル適応arXiv cs.CL
2026年6月1日
idSCD:意味相関記述子を通じた訓練データセットの特定arXiv cs.LG
2026年6月1日
QASM-Eval:量子回路を超えたOpenQASM-3でのLLMの訓練と評価用データセットarXiv cs.LG
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセットarXiv cs.CL
🤖
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
ファクトチェックを投稿するには ログイン が必要です
関連記事
こんな記事も読まれています
コメント (0)
コメント投稿にはログインが必要です。
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報








