Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM
Nya optimeringar gör det nu möjligt att köra Qwen 35B MoE-modeller på grafikkort med endast 8 GB minne, vilket öppnar upp avancerad lokal AI för vanliga användare.

Vad har hänt
Entusiaster har lyckats konfigurera den nya språkmodellen Qwen-2.5-35B-MoE så att den kan köras på konsumenthårdvara med endast 8 GB VRAM. Genom att använda tekniker som kvantisering (4-bit eller lägre) och optimerade inställningar i llama.cpp-servern kan modeller som tidigare krävt dyr professionell utrustning nu nyttjas lokalt. Nyckeln ligger i MoE-arkitekturen (Mixture of Experts), där endast en bråkdel av parametrarna aktiveras vid varje beräkning.
Snabbfakta
| Möjliggörande teknik | Optimeringar och kvantisering (4-bit eller lägre) |
|---|---|
| Minneskrav | 8 GB VRAM |
| Använd modell | Qwen-2.5-35B-MoE |
| Antal parametrar | 35 miljarder |
| Viktigt verktyg | llama.cpp-servern |
| Rekommenderade kvant-filer | Q3_K_M eller Q4_K_M |
Varför det spelar roll
Att köra en 35-miljarders parameter-modell på begränsat minne är ett tekniskt genombrott för lokal AI. Det visar hur effektiv MoE-arkitekturen är i kombination med community-drivna verktyg som llama.cpp. Det möjliggör också användning av "resonemangsmodeller" (thinking models) lokalt, vilket ger högre precision i komplexa uppgifter utan att tumma på integriteten.
Vem påverkas
Detta påverkar främst utvecklare och AI-hobbyister som vill köra avancerade modeller för kodning eller resonemang på bärbara datorer eller enklare speldatorer. Det demokratiserar tillgången till högpresterande AI som inte kräver prenumerationer eller molnbaserade API:er.
EU-status
Lösningen fungerar globalt för användare med tillgång till öppen källkod och tillräcklig hårdvara, oavsett EU-reglering. MoE-modeller som Qwen är särskilt populära i Europa tack vare möjligheten att köra dem lokalt utan att dela data med amerikanska molntjänster.
Mer att veta
Användare varnas för att prestandan kan påverkas drastiskt om systemet tvingas använda systemminne (RAM) istället för videominne (VRAM). Det rekommenderas att använda optimerade quant-filer som Q3_K_M eller Q4_K_M för bästa balans mellan hastighet och intelligens.
Snabba svar om den här nyheten
Vilken modell kan nu köras på grafikkort med 8 GB VRAM?
Vilka tekniker har möjliggjort detta genombrott?
Vem gynnas främst av denna utveckling?
Länken öppnar i nytt fönster och leder till utgivarens egen sida.
Källan har spårats automatiskt från utgivaren via Fronts signalkedja.