Hoppa till innehåll
Dagens utgåva 
Forskning· Analys

Post-träning kan försämra AI:s medkänsla

Ny forskning visar att post-träning av språkmodeller för “hjälpsamhet” oavsiktligt kan försämra värden som djurmedkänsla, jämfört med träning för kodning.

Av Front-redaktionen·26 juni 2026·2 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad
Post-träning kan försämra AI:s medkänsla
Post-träning kan försämra AI:s medkänsla
Post-träning kan försämra AI:s medkänsla
Av · Policy- & EU-reporter

Vad har hänt

En studie publicerad på arXiv den 26 juni 2026 undersökte hur domänen för post-träningsdata påverkar bevarandet av djurmedkänsla i en Llama 3.1 8B-modell. Modellen hade förtränats med syntetiska data inriktade på medkänsla. Forskarna använde både "supervised fine-tuning" (SFT) och "reinforcement learning" (GRPO) med dataset för antingen "hjälpsamhet" (Dolly-15k, RLHFlow) eller kodning (Magicoder-110K).

Snabbfakta

Publikationsdatum26 juni 2026
ModellLlama 3.1 8B
BenchmarksAnimal Harm Benchmark (AHB 2.2), MORU benchmark
SFT hjälpsamhet (Dolly-15k)35.7%
SFT kodning (Magicoder-110K)65.2%
GRPO hjälpsamhet (RLHFlow)18.7%

Helpfulness training significantly degrades animal compassion relative to coding training on AHB (SFT: 35.7% vs. 65.2%; GRPO: 18.7% vs. 32.0%), replicating across two independent helpfulness datasets and two training paradigms.

null, null · arXiv

Varför det spelar roll

Resultaten indikerade att träning för hjälpsamhet signifikant försämrade djurmedkänslan jämfört med kodningsträning, mätt med "Animal Harm Benchmark" (AHB 2.2). Denna degradering observerades konsekvent över två oberoende hjälpsamhetsdataset och två träningsparadigmer. Forskningen belyser utmaningar med att bibehålla etiska värden under optimering för specifika uppgifter.

Vem påverkas

Studien påverkar utvecklare och forskare inom AI-området som arbetar med språkmodeller och deras finjustering. Den är även relevant för organisationer som utformar AI-system där etiska överväganden, såsom medkänsla, är viktiga. Användare av AI-modeller kan indirekt påverkas av de värden som modeller uppvisar.

EU-status

Ej relevant för EU-status.

Mer att veta

Försämringen av djurmedkänsla var markant: med SFT minskade den från 65.2% (kodning) till 35.7% (hjälpsamhet), och med GRPO från 32.0% till 18.7%. Dessutom observerades en försämring av allmän moralisk resonemang på engelska MORU-objekt vid hjälpsamhetsträning.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?
En studie publicerad den 26 juni 2026 visar att post-träning av AI-modeller för
När hände det?
Studien publicerades den 26 juni 2026 på arXiv.
Varför spelar det roll?
Detta spelar roll eftersom det belyser en utmaning med att bibehålla etiska värden under optimering av AI-modeller för specifika uppgifter, vilket kan leda till oönskade beteenden.
Originalkälla
arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Ämnen

#Ethics#Safety#Models
[ FÖLJ UTVECKLINGEN ]

Få liknande nyheter direkt i mejlen

Inga affiliate-länkarAvsluta när som helstGDPR-vänlig
[ Frekvens ]
[ Vad vill du läsa om? ]

Du får utskick om 2 ämnen.