Tutorials· Handledning

Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM

Nya optimeringar gör det nu möjligt att köra Qwen 35B MoE-modeller på grafikkort med endast 8 GB minne, vilket öppnar upp avancerad lokal AI för vanliga användare.

Av Front-redaktionen·2 maj 2026·2 min läsning·Källa: Reddit r/LocalLLaMAVerifierad signalAI-genererad

Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM

Vad har hänt

Entusiaster har lyckats konfigurera den nya språkmodellen Qwen-2.5-35B-MoE så att den kan köras på konsumenthårdvara med endast 8 GB VRAM. Genom att använda tekniker som kvantisering (4-bit eller lägre) och optimerade inställningar i llama.cpp-servern kan modeller som tidigare krävt dyr professionell utrustning nu nyttjas lokalt. Nyckeln ligger i MoE-arkitekturen (Mixture of Experts), där endast en bråkdel av parametrarna aktiveras vid varje beräkning.

Snabbfakta

Möjliggörande teknik	Optimeringar och kvantisering (4-bit eller lägre)
Minneskrav	8 GB VRAM
Använd modell	Qwen-2.5-35B-MoE
Antal parametrar	35 miljarder
Viktigt verktyg	llama.cpp-servern
Rekommenderade kvant-filer	Q3_K_M eller Q4_K_M

Varför det spelar roll

Att köra en 35-miljarders parameter-modell på begränsat minne är ett tekniskt genombrott för lokal AI. Det visar hur effektiv MoE-arkitekturen är i kombination med community-drivna verktyg som llama.cpp. Det möjliggör också användning av "resonemangsmodeller" (thinking models) lokalt, vilket ger högre precision i komplexa uppgifter utan att tumma på integriteten.

Vem påverkas

Detta påverkar främst utvecklare och AI-hobbyister som vill köra avancerade modeller för kodning eller resonemang på bärbara datorer eller enklare speldatorer. Det demokratiserar tillgången till högpresterande AI som inte kräver prenumerationer eller molnbaserade API:er.

EU-status

Lösningen fungerar globalt för användare med tillgång till öppen källkod och tillräcklig hårdvara, oavsett EU-reglering. MoE-modeller som Qwen är särskilt populära i Europa tack vare möjligheten att köra dem lokalt utan att dela data med amerikanska molntjänster.

Mer att veta

Användare varnas för att prestandan kan påverkas drastiskt om systemet tvingas använda systemminne (RAM) istället för videominne (VRAM). Det rekommenderas att använda optimerade quant-filer som Q3_K_M eller Q4_K_M för bästa balans mellan hastighet och intelligens.

Vanliga frågor

Snabba svar om den här nyheten

Vilken modell kan nu köras på grafikkort med 8 GB VRAM?

Qwen-2.5-35B-MoE kan nu köras på grafikkort med endast 8 GB VRAM.

Vilka tekniker har möjliggjort detta genombrott?

Genombrottet har möjliggjorts genom tekniker som kvantisering (4-bit eller lägre) och optimerade inställningar i llama.cpp-servern, samt MoE-arkitekturen.

Vem gynnas främst av denna utveckling?

Främst utvecklare och AI-hobbyister som vill köra avancerade modeller för kodning eller resonemang på bärbara datorer eller enklare speldatorer.

Qwen MoE-arkitektur llama.cpp Qwen-2.5-35B-MoE EU-reglering

Originalkälla

Reddit r/LocalLLaMA·reddit.com

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Qwen

Ämnen

#Models

[ FÖLJ UTVECKLINGEN ]