Hoppa till innehåll
Dagens utgåva 
Tutorials· Handledning

Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM

Nya optimeringar gör det nu möjligt att köra Qwen 35B MoE-modeller på grafikkort med endast 8 GB minne, vilket öppnar upp avancerad lokal AI för vanliga användare.

Av Front-redaktionen·2 maj 2026·2 min läsning·Källa: Reddit r/LocalLLaMAVerifierad signalAI-genererad
Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM
Qwen 35B MoE kan nu köras på vanliga grafikkort med 8 GB VRAM

Vad har hänt

Entusiaster har lyckats konfigurera den nya språkmodellen Qwen-2.5-35B-MoE så att den kan köras på konsumenthårdvara med endast 8 GB VRAM. Genom att använda tekniker som kvantisering (4-bit eller lägre) och optimerade inställningar i llama.cpp-servern kan modeller som tidigare krävt dyr professionell utrustning nu nyttjas lokalt. Nyckeln ligger i MoE-arkitekturen (Mixture of Experts), där endast en bråkdel av parametrarna aktiveras vid varje beräkning.

Snabbfakta

Möjliggörande teknikOptimeringar och kvantisering (4-bit eller lägre)
Minneskrav8 GB VRAM
Använd modellQwen-2.5-35B-MoE
Antal parametrar35 miljarder
Viktigt verktygllama.cpp-servern
Rekommenderade kvant-filerQ3_K_M eller Q4_K_M

Varför det spelar roll

Att köra en 35-miljarders parameter-modell på begränsat minne är ett tekniskt genombrott för lokal AI. Det visar hur effektiv MoE-arkitekturen är i kombination med community-drivna verktyg som llama.cpp. Det möjliggör också användning av "resonemangsmodeller" (thinking models) lokalt, vilket ger högre precision i komplexa uppgifter utan att tumma på integriteten.

Vem påverkas

Detta påverkar främst utvecklare och AI-hobbyister som vill köra avancerade modeller för kodning eller resonemang på bärbara datorer eller enklare speldatorer. Det demokratiserar tillgången till högpresterande AI som inte kräver prenumerationer eller molnbaserade API:er.

EU-status

Lösningen fungerar globalt för användare med tillgång till öppen källkod och tillräcklig hårdvara, oavsett EU-reglering. MoE-modeller som Qwen är särskilt populära i Europa tack vare möjligheten att köra dem lokalt utan att dela data med amerikanska molntjänster.

Mer att veta

Användare varnas för att prestandan kan påverkas drastiskt om systemet tvingas använda systemminne (RAM) istället för videominne (VRAM). Det rekommenderas att använda optimerade quant-filer som Q3_K_M eller Q4_K_M för bästa balans mellan hastighet och intelligens.

Vanliga frågor

Snabba svar om den här nyheten

Vilken modell kan nu köras på grafikkort med 8 GB VRAM?
Qwen-2.5-35B-MoE kan nu köras på grafikkort med endast 8 GB VRAM.
Vilka tekniker har möjliggjort detta genombrott?
Genombrottet har möjliggjorts genom tekniker som kvantisering (4-bit eller lägre) och optimerade inställningar i llama.cpp-servern, samt MoE-arkitekturen.
Vem gynnas främst av denna utveckling?
Främst utvecklare och AI-hobbyister som vill köra avancerade modeller för kodning eller resonemang på bärbara datorer eller enklare speldatorer.
Originalkälla
Reddit r/LocalLLaMA·reddit.com

Länken öppnar i nytt fönster och leder till utgivarens egen sida.

Verifierad signal

Källan har spårats automatiskt från utgivaren via Fronts signalkedja.

AI-verktyg i artikeln

Ämnen

#Models
[ FÖLJ UTVECKLINGEN ]

Få liknande nyheter direkt i mejlen

Inga affiliate-länkarAvsluta när som helstGDPR-vänlig
[ Frekvens ]
[ Vad vill du läsa om? ]

Du får utskick om 2 ämnen.