Studie visar på klyfta mellan detektering och kontroll av beteenden i AI-modeller
En ny studie från arXiv belyser en betydande skillnad mellan hur väl AI-modeller kan detektera specifika beteenden och förmågan att styra dem.

Vad har hänt
Forskare har undersökt förhållandet mellan en AI-modells förmåga att upptäcka ett visst beteende och möjligheten att faktiskt kontrollera det. De mätte den geometriska vinkeln mellan den riktning i modellens aktiveringar som bäst detekterar ett beteende och den som bäst orsakar det. Resultaten visar att perfekt detektering inte automatiskt innebär enkel kontroll, vilket utmanar en central förutsättning inom maskinell tolkbarhet (mechanistic interpretability).
Snabbfakta
”A central aspiration of mechanistic interpretability is controllability: if we know where a behavior is represented in a model's activations, we should be able to modify it.”
”On Gemma 2-2B-it, output format (clean JSON vs markdown fencing) collapses both roles onto one axis. Hallucination does not”
”the model detects fake entities with perfect linear separability (AUC = 1.000 from layer 5), yet that direction sits at cos = 0.12 (about 83 degrees) from the direction producing a refusal”
Varför det spelar roll
Studien avslöjar att en AI:s interna representation av ett beteende, som möjliggör detektering, inte nödvändigtvis är densamma som den representation som skulle möjliggöra kontroll. Detta ”detektering-intervention-gap” innebär att även om vi kan identifiera varför en AI agerar på ett visst sätt, är det betydligt svårare att ändra detta agerande. Detta är avgörande för utvecklingen av pålitliga och säkra AI-system, särskilt när det gäller att hantera oönskade beteenden som hallucinationer.
Vem påverkas
Studien påverkar främst forskare och utvecklare inom AI, särskilt de som arbetar med mechanistic interpretability, AI-säkerhet och AI-etik. Även företag som utvecklar eller implementerar stora språkmodeller (LLM) berörs, då insikterna kan påverka hur de försöker styra modellernas utdata och minska risker.
EU-status
Ej relevant för EU-status.
Mer att veta
För studien användes modellen Gemma 2-2B-it. Medan utdataformat (t.ex. JSON vs. Markdown) visade en nära koppling mellan detektering och kontroll, uppvisade hallucinationer en stor klyfta. En hallucination kunde detekteras med 100% precision (AUC = 1.000) men kontrollriktningen var nästan vinkelrät mot detektionsriktningen (cos = 0.12, ca 83 grader).
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka AI-modeller berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.