Hoppa till innehåll
Dagens utgåva 
Forskning· Analys

Studie ifrågasätter tillförlitlighet hos LLM-attributionsmått

En ny studie från arXiv belyser att automatiska mått för attribution inom retrieval-augmented generation (RAG) för LLM:er ofta inte är utbytbara mellan olika dataset och utvärderingskonstruktioner.

Av Front-redaktionen·24 juni 2026·2 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad
Studie ifrågasätter tillförlitlighet hos LLM-attributionsmått
Studie ifrågasätter tillförlitlighet hos LLM-attributionsmått
Studie ifrågasätter tillförlitlighet hos LLM-attributionsmått
Av · Policy- & EU-reporter

Vad har hänt

Forskare har granskat åtta automatiska poängsättningssystem, inklusive lexikala, inbäddningsbaserade och BERTScore-baslinjer, samt modeller tränade för att identifiera förbindelser och sanningar (entailment/grounding) som clean- och FEVER NLI samt MiniCheck. Undersökningen omfattade tre utvärderingskonstruktioner: proveniens/topikalitet, attributionsanalys av genererade svar och faktakontroll av samband. Syftet var att fastställa om något av dessa system bibehöll sin prestanda över flera dataset.

Snabbfakta

Publikationsdatum2024
Antal granskade poängsättare8
Utvärderingskonstruktioner3
AttributionBench dataset (n)1,610
HAGRID dataset (n)2,150

Practice often treats automatic metrics for attribution in LLM retrieval-augmented generation as interchangeable. We audit eight automatic scorers [...] asking whether any scorer transfers: stays within the 95% confidence interval of the best audited scorer on every dataset of a

Forskare, Forskare · arXiv cs.CL

Varför det spelar roll

Studiens resultat utmanar det vanliga antagandet att dessa automatiska mått kan användas synonymt. Inget av de granskade systemen visade en konsekvent prestanda inom det 95%iga konfidensintervallet jämfört med det bästa systemet över alla dataset inom en given konstruktion. Detta indikerar att val av attributionsmått har stor betydelse för korrekt utvärdering av LLM-baserade RAG-system.

Vem påverkas

Studien påverkar primärt utvecklare och forskare som arbetar med stora språkmodeller (LLM) och retrieval-augmented generation (RAG). Företag som implementerar eller utvärderar sådana system behöver ta hänsyn till dessa begränsningar för att säkerställa systemens tillförlitlighet och relevans. Även användare av AI-system kan indirekt påverkas då det handlar om tillförlitligheten i den information som dessa system genererar.

EU-status

Ej relevant för EU-status.

Mer att veta

Särskilt inom utvärderingskonstruktionen för attributionsanalys av genererade svar (AttributionBench och HAGRID) inversioner i rangordningen av system mellan olika dataset (Kendall tau = -0.64, p = 0.031 på AttributedQA vs. LFQA). En NLI-poängsättare som var bäst på kortare påståenden (AttributedQA med AUROC 0.90) tappade prestanda på andra dataset.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?
En studie publicerad 2024 på arXiv har visat att automatiska attributionsmått för LLM:er med RAG (Retrieval-Augmented Generation) inte är utbytbara mellan olika dataset och utvärderingskonstruktioner.
När hände det?
Studien publicerades 2024.
Varför spelar det roll?
Det spelar roll eftersom det utmanar antagandet om att alla automatiska attributionsmått är likvärdiga. Detta betyder att utvecklare och forskare måste välja utvärderingsmetoder med stor omsorg för att säkerställa korrekta och tillförlitliga resultat vid utvärdering av LLM-system.
Vilka bolag berörs?
Tillverkare och utvecklare av LLM-modeller och RAG-system påverkas, då resultaten understryker vikten av noggrann validering av utvärderingsmetoder. Detta inkluderar företag som utvecklar AI-plattformar och applikationer baserade på stora språkmodeller.
Originalkälla
arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Ämnen

#Models
[ FÖLJ UTVECKLINGEN ]

Få liknande nyheter direkt i mejlen

Inga affiliate-länkarAvsluta när som helstGDPR-vänlig
[ Frekvens ]
[ Vad vill du läsa om? ]

Du får utskick om 2 ämnen.