Studie ifrågasätter tillförlitlighet hos LLM-attributionsmått
En ny studie från arXiv belyser att automatiska mått för attribution inom retrieval-augmented generation (RAG) för LLM:er ofta inte är utbytbara mellan olika dataset och utvärderingskonstruktioner.

Vad har hänt
Forskare har granskat åtta automatiska poängsättningssystem, inklusive lexikala, inbäddningsbaserade och BERTScore-baslinjer, samt modeller tränade för att identifiera förbindelser och sanningar (entailment/grounding) som clean- och FEVER NLI samt MiniCheck. Undersökningen omfattade tre utvärderingskonstruktioner: proveniens/topikalitet, attributionsanalys av genererade svar och faktakontroll av samband. Syftet var att fastställa om något av dessa system bibehöll sin prestanda över flera dataset.
Snabbfakta
| Publikationsdatum | 2024 |
|---|---|
| Antal granskade poängsättare | 8 |
| Utvärderingskonstruktioner | 3 |
| AttributionBench dataset (n) | 1,610 |
| HAGRID dataset (n) | 2,150 |
”Practice often treats automatic metrics for attribution in LLM retrieval-augmented generation as interchangeable. We audit eight automatic scorers [...] asking whether any scorer transfers: stays within the 95% confidence interval of the best audited scorer on every dataset of a”
Varför det spelar roll
Studiens resultat utmanar det vanliga antagandet att dessa automatiska mått kan användas synonymt. Inget av de granskade systemen visade en konsekvent prestanda inom det 95%iga konfidensintervallet jämfört med det bästa systemet över alla dataset inom en given konstruktion. Detta indikerar att val av attributionsmått har stor betydelse för korrekt utvärdering av LLM-baserade RAG-system.
Vem påverkas
Studien påverkar primärt utvecklare och forskare som arbetar med stora språkmodeller (LLM) och retrieval-augmented generation (RAG). Företag som implementerar eller utvärderar sådana system behöver ta hänsyn till dessa begränsningar för att säkerställa systemens tillförlitlighet och relevans. Även användare av AI-system kan indirekt påverkas då det handlar om tillförlitligheten i den information som dessa system genererar.
EU-status
Ej relevant för EU-status.
Mer att veta
Särskilt inom utvärderingskonstruktionen för attributionsanalys av genererade svar (AttributionBench och HAGRID) inversioner i rangordningen av system mellan olika dataset (Kendall tau = -0.64, p = 0.031 på AttributedQA vs. LFQA). En NLI-poängsättare som var bäst på kortare påståenden (AttributedQA med AUROC 0.90) tappade prestanda på andra dataset.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka bolag berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.