Studie kartlägger divergerande AI-preferenser globalt
En ny analys baserad på 1 500 svar från 75 länder visar att mänskliga preferenser för AI-system är komplexa och ofta motsägelsefulla, vilket ifrågasätter effektiviteten hos nuvarande finjusteringsmetoder som RLHF.

Vad har hänt
Forskare har analyserat 1 500 öppna svar från det globala PRISM-datasetet för att undersöka vad människor faktiskt önskar av AI-system. Studien identifierade konkreta brister i nuvarande metoder för finjustering av stora språkmodeller (LLM) som Reinforcement Learning from Human Feedback (RLHF). Enligt resultaten, publicerade på arXiv den 6 juni 2026, aggreggerar RLHF ofta motstridiga preferenser och förlitar sig på icke-representativa urval.
Snabbfakta
| Antal analyserade svar | 1 500 |
|---|---|
| Antal länder representerade | 75 |
| Andel som efterfrågar 'sanning' | 49% |
| Publikationsdatum | 6 juni 2026 |
”Large Language Models (LLMs) are often fine-tuned through Reinforcement Learning from Human Feedback (RLHF) to align with people's preferences and values. However, this method has known limitations: it aggregates conflicting preferences, often relies on unrepresentative samples,”
”We find that different people want different things: most values are requested by fewer than a quarter of respondents, with truthfulness the sole exception at 49%.”
”Furthermore, the same words hide divergent meanings: when people describe what they mean by "truthfulness", they reveal distinct, potentially incompatible, epistemological bases, as some ask for sourced claims, some for expert opinions, and some even ask for unpopular views.”
Varför det spelar roll
Analysen visar att "sanning" är det enda värdet som efterfrågas av nära hälften (49%) av respondenterna, medan de flesta andra värden efterfrågas av färre än en fjärdedel. Dessutom döljer samma termer Divergerande betydelser; vad människor menar med "sanning" varierar stort, från att efterfråga källhänvisade påståenden till expertutlåtanden eller till och med opopulära åsikter. Detta indikerar att nuvarande metoder för AI-träning kan missa den verkliga komplexiteten i mänskliga preferenser.
Vem påverkas
Studien påverkar direkt AI-utvecklare och forskare som arbetar med finjustering av LLM:er, samt företag som implementerar AI-system. Även användare påverkas indirekt, då deras preferenser kanske inte representeras fullt ut i de AI-modeller de interagerar med. Resultaten är relevanta för alla globala aktörer som bygger eller utvärderar AI.
EU-status
Ej relevant för EU-status.
Mer att veta
Denna forskning belyser behovet av mer nyanserade metoder för AI-anpassning som bättre kan hantera den pluralitet av preferenser som finns hos människor. Att förstå denna komplexitet är avgörande för att utveckla AI som är genuint användarcentrerad.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka bolag berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.