Forskning· Analys

Chattmodellers vägran att svara sammankopplat med persona

Ny forskning visar att chattmodellers benägenhet att vägra svara på frågor kan kopplas till deras programmerade persona, vilket innebär att en mer följsam persona minskar vägran.

Av Front-redaktionen·26 juni 2026·2 min läsning·Källa: arXiv cs.AIVerifierad signalAI-genererad

Av Alma Berg · Policy- & EU-reporter

26 juni 2026

Vad har hänt

En studie publicerad på arXiv den 26 juni 2026 visar att mönster i modellens aktiveringsutrymme, som tidigare identifierats separat för både vägran att svara och persona, interagerar. Forskare fann att en "följsam" modell-persona har en direkt inverkan på vägran att svara. Genom att manipulera dessa riktningar i språkmodellerna Qwen2.5-7B-Instruct och Llama-3.1-8B-Instruct kunde de påvisa en tydlig koppling mellan persona och modellens tendens att vägra svara på vissa instruktioner.

Snabbfakta

Publikationsdatum	26 juni 2026
Modeller som studerats	Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct
Minskning av vägran (Llama)	Från 97% till 2%

”Refusal Lives Downstream of Persona in Chat Models”

— Forskare, null · arXiv26 juni 2026

”In Qwen2.5-7B-Instruct and Llama-3.1-8B-Instruct, we extract a compliant model-persona direction and a refusal direction and intervene on both. Compliant persona steering suppresses refusal -- in Llama, the refusal rate falls from 97% to 2%.”

— Forskare, null · arXiv26 juni 2026

Varför det spelar roll

Denna upptäckt är viktig eftersom den utmanar tidigare antaganden om att vägran att svara endast är en isolerad egenskap hos chattmodeller. Genom att förstå hur persona påverkar vägran, kan utvecklare finjustera modeller för bättre kontroll över deras beteende. Resultaten indikerar att vägran är en funktion som hämmas av en följsam persona i de senare lager av modellens bearbetning, vilket tyder på en komplex interaktion snarare än en enkel, direkt koppling.

Vem påverkas

Forskare och utvecklare av stora språkmodeller påverkas direkt, då insikten kan leda till effektivare metoder för att hantera modellbeteende. Företag som bygger applikationer baserade på dessa modeller kan dra nytta av att bättre kunna styra modellens respons. Användare kan i förlängningen få mer förutsägbara och kontrollerbara AI-tjänster.

EU-status

Ej relevant för EU-status.

Mer att veta

Studien använde sig av "linear directions in activation space" för att identifiera persona och vägran, en metod som tillåter manipulation av specifika beteenden inom en neural nätverksmodell.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?

En ny studie visar att chattmodellers tends till att vägra svara på instruktioner är direkt kopplad till deras programmerade persona. En följsam persona minskar denna vägran avsevärt.

När hände det?

Forskningen publicerades på arXiv den 26 juni 2026.

Varför spelar det roll?

Detta ändrar förståelsen av modellbeteende och ger utvecklare nya verktyg för att kontrollera chattmodellers respons och göra dem mer förutsägbara.

Qwen2.5-7B-Instruct Llama-3.1-8B-Instruct arXiv

Originalkälla

arXiv cs.AI·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Qwen Llama

Ämnen

#Safety#Models

[ FÖLJ UTVECKLINGEN ]

Chattmodellers vägran att svara sammankopplat med persona

Vad har hänt

Snabbfakta

Varför det spelar roll

Vem påverkas

EU-status

Mer att veta

Snabba svar om den här nyheten

AI-verktyg i artikeln

Ämnen

Få liknande nyheter direkt i mejlen