Forskning· Analys

Ny metod förbättrar flerspråkig faktabearbetning i AI

Forskare har utvecklat en ny metod baserad på förstärkningsinlärning för att förbättra stora språkmodellers förmåga att återkalla fakta på olika språk, särskilt de som inte är engelska.

Av Front-redaktionen·27 juni 2026·2 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad

Av Alma Berg · Policy- & EU-reporter

27 juni 2026

Vad har hänt

En studie publicerad på arXiv introducerar en ny metod, Group Relative Policy Optimization (GRPO), för att motverka flerspråkig faktainkonsistens i stora språkmodeller (LLM). Metoden syftar till att förbättra LLM:s förmåga att hantera faktauppgifter på andra språk än engelska. För detta ändamål har forskare skapat PolyFact, en datamängd med 100 000 fakta i 12 språk, baserad på Wikidata, för att utvärdera metoden.

Snabbfakta

Metod	Group Relative Policy Optimization (GRPO)
Datamängd	PolyFact, 100K fakta
Antal språk	12
Modeller testade	Qwen-2.5-7B, OLMo-2-1124-7B

”Large language models (LLMs) trained predominantly on English data encode substantial world knowledge, yet often fail to express it reliably in other languages, a phenomenon known as cross-lingual factual inconsistency.”

— Forskarna bakom studien, Forskare · arXiv18 juni 2026

”We find that GRPO consistently outperforms SFT, improving both cross-lingual consistency and generalization to unseen languages, while CPT on parallel data yields limited additional gains.”

— Forskarna bakom studien, Forskare · arXiv18 juni 2026

”Mechanistic analyses further show that GRPO reorganizes multilingual routing by reducing language specialization.”

— Forskarna bakom studien, Forskare · arXiv18 juni 2026

Varför det spelar roll

Stora språkmodeller tränas primärt på engelska data, vilket innebär att deras förmåga att tillförlitligt uttrycka faktabaserad kunskap på andra språk är begränsad. Forskarnas nya metod, GRPO, är utformad för att hantera denna brist genom att optimera modellernas prestanda i flerspråkiga sammanhang, vilket leder till mer konsekvent återkallande av fakta mellan olika språk.

Vem påverkas

Utvecklare och forskare inom naturvetenskaplig språkbehandling (NLP) som arbetar med flerspråkiga LLM påverkas direkt. Även företag som tillhandahåller AI-tjänster globalt, samt användare av AI-system som behöver tillförlitlig information på icke-engelska språk, berörs av dessa framsteg.

EU-status

Ej relevant för EU-status.

Mer att veta

Jämförelser gjordes med andra metoder som kontinuerlig förträning (CPT) och övervakad finjustering (SFT). GRPO visade sig prestera bättre än SFT och förbättrade både flerspråkig konsistens och generaliseringsförmåga till nya språk.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?

En ny forskningsmetod, Group Relative Policy Optimization (GRPO), har utvecklats för att förbättra stora språkmodellers förmåga att återkalla fakta mer tillförlitligt på flera olika språk.

När hände det?

Studien publicerades den 18 juni 2026 på arXiv.

Varför spelar det roll?

Eftersom LLM:s främst tränas på engelska data, kan deras faktabearbetning på andra språk vara inkonsekvent. Denna nya metod kan förbättra tillförlitligheten och generaliseringen av AI-system för en global publik.

Vilka modeller berörs?

Forskningen har använt Qwen-2.5-7B och OLMo-2-1124-7B för att testa och utvärdera metoden.

Group Relative Policy Optimization PolyFact Qwen-2.5-7B OLMo-2-1124-7B Wikidata Natural Language Processing (NLP)arXiv

Originalkälla

arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Qwen

Ämnen

#Models

[ FÖLJ UTVECKLINGEN ]

Ny metod förbättrar flerspråkig faktabearbetning i AI

Vad har hänt

Snabbfakta

Varför det spelar roll

Vem påverkas

EU-status

Mer att veta

Snabba svar om den här nyheten

AI-verktyg i artikeln

Ämnen

Få liknande nyheter direkt i mejlen