Hoppa till innehåll
Dagens utgåva 
Forskning· Analys

Ny metod förbättrar flerspråkig faktabearbetning i AI

Forskare har utvecklat en ny metod baserad på förstärkningsinlärning för att förbättra stora språkmodellers förmåga att återkalla fakta på olika språk, särskilt de som inte är engelska.

Av Front-redaktionen·27 juni 2026·2 min läsning·Källa: arXiv cs.CL (NLP/LLM)Verifierad signalAI-genererad
Ny metod förbättrar flerspråkig faktabearbetning i AI
Ny metod förbättrar flerspråkig faktabearbetning i AI
Ny metod förbättrar flerspråkig faktabearbetning i AI
Av · Policy- & EU-reporter

Vad har hänt

En studie publicerad på arXiv introducerar en ny metod, Group Relative Policy Optimization (GRPO), för att motverka flerspråkig faktainkonsistens i stora språkmodeller (LLM). Metoden syftar till att förbättra LLM:s förmåga att hantera faktauppgifter på andra språk än engelska. För detta ändamål har forskare skapat PolyFact, en datamängd med 100 000 fakta i 12 språk, baserad på Wikidata, för att utvärdera metoden.

Snabbfakta

MetodGroup Relative Policy Optimization (GRPO)
DatamängdPolyFact, 100K fakta
Antal språk12
Modeller testadeQwen-2.5-7B, OLMo-2-1124-7B

Large language models (LLMs) trained predominantly on English data encode substantial world knowledge, yet often fail to express it reliably in other languages, a phenomenon known as cross-lingual factual inconsistency.

Forskarna bakom studien, Forskare · arXiv

We find that GRPO consistently outperforms SFT, improving both cross-lingual consistency and generalization to unseen languages, while CPT on parallel data yields limited additional gains.

Forskarna bakom studien, Forskare · arXiv

Mechanistic analyses further show that GRPO reorganizes multilingual routing by reducing language specialization.

Forskarna bakom studien, Forskare · arXiv

Varför det spelar roll

Stora språkmodeller tränas primärt på engelska data, vilket innebär att deras förmåga att tillförlitligt uttrycka faktabaserad kunskap på andra språk är begränsad. Forskarnas nya metod, GRPO, är utformad för att hantera denna brist genom att optimera modellernas prestanda i flerspråkiga sammanhang, vilket leder till mer konsekvent återkallande av fakta mellan olika språk.

Vem påverkas

Utvecklare och forskare inom naturvetenskaplig språkbehandling (NLP) som arbetar med flerspråkiga LLM påverkas direkt. Även företag som tillhandahåller AI-tjänster globalt, samt användare av AI-system som behöver tillförlitlig information på icke-engelska språk, berörs av dessa framsteg.

EU-status

Ej relevant för EU-status.

Mer att veta

Jämförelser gjordes med andra metoder som kontinuerlig förträning (CPT) och övervakad finjustering (SFT). GRPO visade sig prestera bättre än SFT och förbättrade både flerspråkig konsistens och generaliseringsförmåga till nya språk.

Vanliga frågor

Snabba svar om den här nyheten

Vad har hänt?
En ny forskningsmetod, Group Relative Policy Optimization (GRPO), har utvecklats för att förbättra stora språkmodellers förmåga att återkalla fakta mer tillförlitligt på flera olika språk.
När hände det?
Studien publicerades den 18 juni 2026 på arXiv.
Varför spelar det roll?
Eftersom LLM:s främst tränas på engelska data, kan deras faktabearbetning på andra språk vara inkonsekvent. Denna nya metod kan förbättra tillförlitligheten och generaliseringen av AI-system för en global publik.
Vilka modeller berörs?
Forskningen har använt Qwen-2.5-7B och OLMo-2-1124-7B för att testa och utvärdera metoden.
Originalkälla
arXiv cs.CL (NLP/LLM)·arxiv.org

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Ämnen

#Models
[ FÖLJ UTVECKLINGEN ]

Få liknande nyheter direkt i mejlen

Inga affiliate-länkarAvsluta när som helstGDPR-vänlig
[ Frekvens ]
[ Vad vill du läsa om? ]

Du får utskick om 2 ämnen.