Forskning· Analys

Studie visar på klyfta mellan detektering och kontroll av beteenden i AI-modeller

En ny studie från arXiv belyser en betydande skillnad mellan hur väl AI-modeller kan detektera specifika beteenden och förmågan att styra dem.

Av Front-redaktionen·25 juni 2026·3 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad

Av Alma Berg · Policy- & EU-reporter

25 juni 2026

Vad har hänt

Forskare har undersökt förhållandet mellan en AI-modells förmåga att upptäcka ett visst beteende och möjligheten att faktiskt kontrollera det. De mätte den geometriska vinkeln mellan den riktning i modellens aktiveringar som bäst detekterar ett beteende och den som bäst orsakar det. Resultaten visar att perfekt detektering inte automatiskt innebär enkel kontroll, vilket utmanar en central förutsättning inom maskinell tolkbarhet (mechanistic interpretability).

Snabbfakta

Modell som studerades	Gemma 2-2B-it
Typ av beteende med gap	Hallucinationer
Detektionsprecision (hallucinationer)	AUC = 1.000 (från lager 5)
Kosinusvärde (detektion vs. kontroll)	0.12 (ca 83 grader)
Publiceringsdatum	24 juni 2026

”A central aspiration of mechanistic interpretability is controllability: if we know where a behavior is represented in a model's activations, we should be able to modify it.”

— Forskare (anonyma i abstract), null · arXiv cs.CL (NLP/LLM)24 juni 2026

”On Gemma 2-2B-it, output format (clean JSON vs markdown fencing) collapses both roles onto one axis. Hallucination does not”

— Forskare (anonyma i abstract), null · arXiv cs.CL (NLP/LLM)24 juni 2026

”the model detects fake entities with perfect linear separability (AUC = 1.000 from layer 5), yet that direction sits at cos = 0.12 (about 83 degrees) from the direction producing a refusal”

— Forskare (anonyma i abstract), null · arXiv cs.CL (NLP/LLM)24 juni 2026

Varför det spelar roll

Studien avslöjar att en AI:s interna representation av ett beteende, som möjliggör detektering, inte nödvändigtvis är densamma som den representation som skulle möjliggöra kontroll. Detta ”detektering-intervention-gap” innebär att även om vi kan identifiera varför en AI agerar på ett visst sätt, är det betydligt svårare att ändra detta agerande. Detta är avgörande för utvecklingen av pålitliga och säkra AI-system, särskilt när det gäller att hantera oönskade beteenden som hallucinationer.

Vem påverkas

Studien påverkar främst forskare och utvecklare inom AI, särskilt de som arbetar med mechanistic interpretability, AI-säkerhet och AI-etik. Även företag som utvecklar eller implementerar stora språkmodeller (LLM) berörs, då insikterna kan påverka hur de försöker styra modellernas utdata och minska risker.

EU-status

Ej relevant för EU-status.

Mer att veta

För studien användes modellen Gemma 2-2B-it. Medan utdataformat (t.ex. JSON vs. Markdown) visade en nära koppling mellan detektering och kontroll, uppvisade hallucinationer en stor klyfta. En hallucination kunde detekteras med 100% precision (AUC = 1.000) men kontrollriktningen var nästan vinkelrät mot detektionsriktningen (cos = 0.12, ca 83 grader).

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?

En ny studie utgiven på arXiv har visat att det finns en betydande klyfta mellan en AI-modells förmåga att detektera ett specifikt beteende och dess förmåga att styra samma beteende. Detta motbevisar antagandet att detektion direkt leder till kontroll inom mechanistic interpretability.

När hände det?

Studien publicerades den 24 juni 2026 på arXiv under kategorin cs.CL (Computational Linguistics).

Varför spelar det roll?

Detta spelar roll eftersom det komplicerar arbetet med att utveckla säkra och kontrollerbara AI-system. Om man inte enkelt kan styra beteenden man detekterar, blir det svårare att förhindra oönskade utfall som AI-hallucinationer, även om man förstår var de uppstår i modellen.

Vilka AI-modeller berörs?

Studien genomfördes med modellen Gemma 2-2B-it, men de principiella fynden om detektion kontra kontroll kan vara relevanta för en bredare uppsättning stora språkmodeller (LLM).

arXiv Gemma 2-2B-it Machine Learning Natural Language Processing AI-säkerhet Mechanistic Interpretability

Originalkälla

arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Ämnen

#Safety#Models

[ FÖLJ UTVECKLINGEN ]

Studie visar på klyfta mellan detektering och kontroll av beteenden i AI-modeller

Vad har hänt

Snabbfakta

Varför det spelar roll

Vem påverkas

EU-status

Mer att veta

Snabba svar om den här nyheten

AI-verktyg i artikeln

Ämnen

Få liknande nyheter direkt i mejlen