LLM:er matchar eller överträffar mänskliga bedömare i GCSE-prov
En ny studie visar att stora språkmodeller (LLM) kan matcha eller till och med överträffa mänskliga bedömares överensstämmelse vid rättning av brittiska GCSE-prov, även för subjektiva uppgifter och handskrivet material.

Vad har hänt
Forskare har publicerat en studie baserad på en dataset med 32 534 dubbelrättade studentrespons från GCSE-prov. Dessa prov omfattar 328 frågor inom fem ämnen och inkluderar handskrivna uppgifter. Syftet var att utvärdera om befintliga stora språkmodeller (LLM) uppnådde samma grad av överensstämmelse med examinatorer som examinatorer sinsemellan.
Snabbfakta
| Datasetstorlek | 32 534 studentrespons |
|---|---|
| Antal frågor | 328 |
| Ämnen | 5 |
| Provtyp | GCSE mock exams (ålder ~16) |
| Datum för publikation (arXiv) | 26 juni 2026 |
”We find that models overwhelmingly agree well with the examiner consensus across subjects, with the top performing models agreeing more closely with examiners than examiners agree with each other.”
Varför det spelar roll
Resultaten indikerar att LLM:er uppnår en hög grad av överensstämmelse med examinatorernas samstämmiga bedömningar. De bäst presterande modellerna visade sig till och med överensstämma i högre grad med examinatorerna än vad examinatorerna gjorde med varandra. Detta gäller även för mer subjektiva uppgifter som essärättning i engelska samt hantering av handskrivna matematikprov.
Vem påverkas
Studien är relevant för AI-utvecklare som arbetar med automatiserad bedömning, lärosäten som överväger digitala rättningsverktyg och beslutsfattare inom utbildningssektorn som söker kostnadseffektiva lösningar. Elever och lärare kan potentiellt påverkas av framtida implementeringar av AI-driven rättning.
EU-status
Resultaten rör brittiska GCSE-prov och har ingen direkt EU-status. Trots det kan studien ge insikter som är tillämpliga i andra europeiska utbildningssystem vid utveckling av AI-baserade bedömningsverktyg.
Mer att veta
Överensstämmelsen var enhetlig nära examinatorlinjen och påverkades inte i stor utsträckning av modellstorlek, vilket indikerar att kostnadseffektiva automatiserade rättningslösningar kan vara möjliga.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Påverkar detta EU?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.