CrowdMath-datasetet kartlägger matematisk forskningsdiskussion
Nytt dataset, CrowdMath, analyserar samarbetenas utveckling inom matematisk problemlösning från MIT PRIMES och Art of Problem Solving.

Vad har hänt
Forskare har publicerat CrowdMath, ett dataset som innehåller 164 annoterade "progress chains" från den samarbetande forskningsinitiativet MIT PRIMES – Art of Problem Solving (AoPS) CrowdMath-program (2016-2025). Datasetet spårar forumdiskussioner från en öppen problemställning till ett fullständigt bevis, där varje inlägg är märkt efter dess funktionella roll i lösningsprocessen.
Snabbfakta
| Antal 'progress chains' | 164 |
|---|---|
| CrowdMath-programmets tidsperiod | 2016-2025 |
| Källa för diskussioner | MIT PRIMES – Art of Problem Solving |
| Datasetets version | v1 |
”Large language models have made substantial progress on mathematical reasoning, but existing benchmarks typically evaluate well-specified problems with final answers, step-by-step solutions, or complete proofs. They do not capture collaborative open-problem solving.”
”We introduce CrowdMath, a dataset of 164 expert-annotated progress chains from the MIT PRIMES--Art of Problem Solving (AoPS) CrowdMath program (2016-2025), a collaborative research initiative whose discussions have led to peer-reviewed publications.”
Varför det spelar roll
Traditionella benchmarks för stora språkmodeller utvärderar oftast väldefinierade problem med färdiga svar eller bevis. CrowdMath adresserar bristen på dataset som speglar kollaborativ, öppen problemlösning – en process där deltagare föreslår partiella argument, identifierar fel och successivt bygger ett bevis. Detta dataset möjliggör forskning kring hur AI kan bistå i eller simulera denna typ av komplex mänsklig interaktion.
Vem påverkas
Datasetet är relevant för AI-forskare och utvecklare som arbetar med stora språkmodeller (LLM) och fokus ligger på matematiskt resonemang, samarbetsbaserad problemlösning samt naturlig språkbehandling. Matematiker och pedagoger kan också finna värde i insikterna om hur matematiska bevis utvecklas i grupp. Användare av AI-system som söker mer sofistikerad interaktion vid problemlösning kan indirekt påverkas om AI-modeller tränas på CrowdMath.
EU-status
Ej relevant för EU-status.
Mer att veta
Datasetet inkluderar diskussioner som har lett till publicerade, peer-reviewade artiklar, vilket understryker kvaliteten och djupet i de samarbeten som analyseras. Annotationerna beskriver funktionella roller, såsom "partial progress", "proof completion" och "erroneous reasoning".
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka bolag berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.