Post-träning kan försämra AI:s medkänsla
Ny forskning visar att post-träning av språkmodeller för “hjälpsamhet” oavsiktligt kan försämra värden som djurmedkänsla, jämfört med träning för kodning.

Vad har hänt
En studie publicerad på arXiv den 26 juni 2026 undersökte hur domänen för post-träningsdata påverkar bevarandet av djurmedkänsla i en Llama 3.1 8B-modell. Modellen hade förtränats med syntetiska data inriktade på medkänsla. Forskarna använde både "supervised fine-tuning" (SFT) och "reinforcement learning" (GRPO) med dataset för antingen "hjälpsamhet" (Dolly-15k, RLHFlow) eller kodning (Magicoder-110K).
Snabbfakta
”Helpfulness training significantly degrades animal compassion relative to coding training on AHB (SFT: 35.7% vs. 65.2%; GRPO: 18.7% vs. 32.0%), replicating across two independent helpfulness datasets and two training paradigms.”
Varför det spelar roll
Resultaten indikerade att träning för hjälpsamhet signifikant försämrade djurmedkänslan jämfört med kodningsträning, mätt med "Animal Harm Benchmark" (AHB 2.2). Denna degradering observerades konsekvent över två oberoende hjälpsamhetsdataset och två träningsparadigmer. Forskningen belyser utmaningar med att bibehålla etiska värden under optimering för specifika uppgifter.
Vem påverkas
Studien påverkar utvecklare och forskare inom AI-området som arbetar med språkmodeller och deras finjustering. Den är även relevant för organisationer som utformar AI-system där etiska överväganden, såsom medkänsla, är viktiga. Användare av AI-modeller kan indirekt påverkas av de värden som modeller uppvisar.
EU-status
Ej relevant för EU-status.
Mer att veta
Försämringen av djurmedkänsla var markant: med SFT minskade den från 65.2% (kodning) till 35.7% (hjälpsamhet), och med GRPO från 32.0% till 18.7%. Dessutom observerades en försämring av allmän moralisk resonemang på engelska MORU-objekt vid hjälpsamhetsträning.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.