Ny metod förbättrar flerspråkig faktabearbetning i AI
Forskare har utvecklat en ny metod baserad på förstärkningsinlärning för att förbättra stora språkmodellers förmåga att återkalla fakta på olika språk, särskilt de som inte är engelska.

Vad har hänt
En studie publicerad på arXiv introducerar en ny metod, Group Relative Policy Optimization (GRPO), för att motverka flerspråkig faktainkonsistens i stora språkmodeller (LLM). Metoden syftar till att förbättra LLM:s förmåga att hantera faktauppgifter på andra språk än engelska. För detta ändamål har forskare skapat PolyFact, en datamängd med 100 000 fakta i 12 språk, baserad på Wikidata, för att utvärdera metoden.
Snabbfakta
| Metod | Group Relative Policy Optimization (GRPO) |
|---|---|
| Datamängd | PolyFact, 100K fakta |
| Antal språk | 12 |
| Modeller testade | Qwen-2.5-7B, OLMo-2-1124-7B |
”Large language models (LLMs) trained predominantly on English data encode substantial world knowledge, yet often fail to express it reliably in other languages, a phenomenon known as cross-lingual factual inconsistency.”
”We find that GRPO consistently outperforms SFT, improving both cross-lingual consistency and generalization to unseen languages, while CPT on parallel data yields limited additional gains.”
”Mechanistic analyses further show that GRPO reorganizes multilingual routing by reducing language specialization.”
Varför det spelar roll
Stora språkmodeller tränas primärt på engelska data, vilket innebär att deras förmåga att tillförlitligt uttrycka faktabaserad kunskap på andra språk är begränsad. Forskarnas nya metod, GRPO, är utformad för att hantera denna brist genom att optimera modellernas prestanda i flerspråkiga sammanhang, vilket leder till mer konsekvent återkallande av fakta mellan olika språk.
Vem påverkas
Utvecklare och forskare inom naturvetenskaplig språkbehandling (NLP) som arbetar med flerspråkiga LLM påverkas direkt. Även företag som tillhandahåller AI-tjänster globalt, samt användare av AI-system som behöver tillförlitlig information på icke-engelska språk, berörs av dessa framsteg.
EU-status
Ej relevant för EU-status.
Mer att veta
Jämförelser gjordes med andra metoder som kontinuerlig förträning (CPT) och övervakad finjustering (SFT). GRPO visade sig prestera bättre än SFT och förbättrade både flerspråkig konsistens och generaliseringsförmåga till nya språk.
Snabba svar om den här nyheten
Vad har hänt?
När hände det?
Varför spelar det roll?
Vilka modeller berörs?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.