Chattmodellers vägran att svara sammankopplat med persona
Ny forskning visar att chattmodellers benägenhet att vägra svara på frågor kan kopplas till deras programmerade persona, vilket innebär att en mer följsam persona minskar vägran.

Vad har hänt
En studie publicerad på arXiv den 26 juni 2026 visar att mönster i modellens aktiveringsutrymme, som tidigare identifierats separat för både vägran att svara och persona, interagerar. Forskare fann att en "följsam" modell-persona har en direkt inverkan på vägran att svara. Genom att manipulera dessa riktningar i språkmodellerna Qwen2.5-7B-Instruct och Llama-3.1-8B-Instruct kunde de påvisa en tydlig koppling mellan persona och modellens tendens att vägra svara på vissa instruktioner.
Snabbfakta
| Publikationsdatum | 26 juni 2026 |
|---|---|
| Modeller som studerats | Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct |
| Minskning av vägran (Llama) | Från 97% till 2% |
”Refusal Lives Downstream of Persona in Chat Models”
”In Qwen2.5-7B-Instruct and Llama-3.1-8B-Instruct, we extract a compliant model-persona direction and a refusal direction and intervene on both. Compliant persona steering suppresses refusal -- in Llama, the refusal rate falls from 97% to 2%.”
Varför det spelar roll
Denna upptäckt är viktig eftersom den utmanar tidigare antaganden om att vägran att svara endast är en isolerad egenskap hos chattmodeller. Genom att förstå hur persona påverkar vägran, kan utvecklare finjustera modeller för bättre kontroll över deras beteende. Resultaten indikerar att vägran är en funktion som hämmas av en följsam persona i de senare lager av modellens bearbetning, vilket tyder på en komplex interaktion snarare än en enkel, direkt koppling.
Vem påverkas
Forskare och utvecklare av stora språkmodeller påverkas direkt, då insikten kan leda till effektivare metoder för att hantera modellbeteende. Företag som bygger applikationer baserade på dessa modeller kan dra nytta av att bättre kunna styra modellens respons. Användare kan i förlängningen få mer förutsägbara och kontrollerbara AI-tjänster.
EU-status
Ej relevant för EU-status.
Mer att veta
Studien använde sig av "linear directions in activation space" för att identifiera persona och vägran, en metod som tillåter manipulation av specifika beteenden inom en neural nätverksmodell.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.