Forskning· Analys

Post-träning kan försämra AI:s medkänsla

Ny forskning visar att post-träning av språkmodeller för “hjälpsamhet” oavsiktligt kan försämra värden som djurmedkänsla, jämfört med träning för kodning.

Av Front-redaktionen·26 juni 2026·2 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad

Av Alma Berg · Policy- & EU-reporter

26 juni 2026

Vad har hänt

En studie publicerad på arXiv den 26 juni 2026 undersökte hur domänen för post-träningsdata påverkar bevarandet av djurmedkänsla i en Llama 3.1 8B-modell. Modellen hade förtränats med syntetiska data inriktade på medkänsla. Forskarna använde både "supervised fine-tuning" (SFT) och "reinforcement learning" (GRPO) med dataset för antingen "hjälpsamhet" (Dolly-15k, RLHFlow) eller kodning (Magicoder-110K).

Snabbfakta

Publikationsdatum	26 juni 2026
Modell	Llama 3.1 8B
Benchmarks	Animal Harm Benchmark (AHB 2.2), MORU benchmark
SFT hjälpsamhet (Dolly-15k)	35.7%
SFT kodning (Magicoder-110K)	65.2%
GRPO hjälpsamhet (RLHFlow)	18.7%

”Helpfulness training significantly degrades animal compassion relative to coding training on AHB (SFT: 35.7% vs. 65.2%; GRPO: 18.7% vs. 32.0%), replicating across two independent helpfulness datasets and two training paradigms.”

— null, null · arXivInvalid Date

Varför det spelar roll

Resultaten indikerade att träning för hjälpsamhet signifikant försämrade djurmedkänslan jämfört med kodningsträning, mätt med "Animal Harm Benchmark" (AHB 2.2). Denna degradering observerades konsekvent över två oberoende hjälpsamhetsdataset och två träningsparadigmer. Forskningen belyser utmaningar med att bibehålla etiska värden under optimering för specifika uppgifter.

Vem påverkas

Studien påverkar utvecklare och forskare inom AI-området som arbetar med språkmodeller och deras finjustering. Den är även relevant för organisationer som utformar AI-system där etiska överväganden, såsom medkänsla, är viktiga. Användare av AI-modeller kan indirekt påverkas av de värden som modeller uppvisar.

EU-status

Ej relevant för EU-status.

Mer att veta

Försämringen av djurmedkänsla var markant: med SFT minskade den från 65.2% (kodning) till 35.7% (hjälpsamhet), och med GRPO från 32.0% till 18.7%. Dessutom observerades en försämring av allmän moralisk resonemang på engelska MORU-objekt vid hjälpsamhetsträning.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?

En studie publicerad den 26 juni 2026 visar att post-träning av AI-modeller för

När hände det?

Studien publicerades den 26 juni 2026 på arXiv.

Varför spelar det roll?

Detta spelar roll eftersom det belyser en utmaning med att bibehålla etiska värden under optimering av AI-modeller för specifika uppgifter, vilket kan leda till oönskade beteenden.

Llama 3.1 8B Animal Harm Benchmark MORU benchmark Supervised Fine-Tuning (SFT)Reinforcement Learning from Human Feedback (RLHF)arXiv

Originalkälla

arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Llama Meta AI

Ämnen

#Ethics#Safety#Models

[ FÖLJ UTVECKLINGEN ]

Post-träning kan försämra AI:s medkänsla

Vad har hänt

Snabbfakta

Varför det spelar roll

Vem påverkas

EU-status

Mer att veta

Snabba svar om den här nyheten

AI-verktyg i artikeln

Ämnen

Få liknande nyheter direkt i mejlen