Nytt benchmark utvärderar språkmodellers kunskapsgränser
Forskare introducerar Know2Guess, ett nytt benchmark som utvärderar stora språkmodellers förmåga att skilja mellan känd information och osäkerhet, transparent utformat för att identifiera datakontaminering.

Vad har hänt
Ett nytt benchmark kallat Know2Guess har presenterats på arXiv, syftande till att mer tillförlitligt utvärdera stora språkmodellers (LLM) så kallade kunskapsgränser. Benchmarket är utformat för att mäta hur väl LLM:er kan skilja mellan att ge ett korrekt svar baserat på känd information och att avstå från att svara när information saknas. Det adresserar problem som datakontaminering och promptspecifika beteenden.
Snabbfakta
| Publikationsdatum | 26 juni 2026 |
|---|---|
| Antal frågor i benchmark | 1 200 |
| Antal domäner | 5 |
| Testade modeller | FLAN-T5, Qwen2.5-Instruct, Llama-3-Instruct |
”Reliable evaluation of large language models should separate supported answering from unsupported guessing without conflating either with data contamination, prompt idiosyncrasy, or generic refusal behavior.”
Varför det spelar roll
Traditionella utvärderingsmetoder för LLM:er har ofta svårt att skilja på en modells faktiska kunskap och dess tendens att "gissa" eller ge generiska svar. Know2Guess syftar till att lösa detta genom att tillhandahålla en strukturerad metod för att mäta övergången från "svarsbar kunskap" till "förväntat avstående" under strikta förhållanden. Detta är avgörande för att utveckla mer pålitliga och säkra AI-system.
Vem påverkas
Utvecklare och forskare inom AI- och maskininlärningsfältet påverkas direkt, då benchmarket erbjuder ett nytt verktyg för att utvärdera och förbättra LLM:ers prestanda. Företag som använder LLM:er i sina produkter kan dra nytta av modeller som är bättre på att hantera osäkerhet. Även slutanvändare påverkas indirekt, då mer tillförlitliga LLM:er minskar risken för felaktig information.
EU-status
Ej relevant för EU-status.
Mer att veta
Know2Guess-benchmarket innehåller 1 200 frågeställningar över fem domäner och inkluderar explicita förväntningar för avstående samt metadata för kontamineringsrisk. Modeller som FLAN-T5, Qwen2.5-Instruct och Llama-3-Instruct har testats med benchmarket.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka bolag berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.