Lokale KI-Modelle – Blog – Picoba Solutions

Letztens saß ich vor meinem Laptop und dachte: Wie weit sind wir eigentlich noch davon entfernt, echtes agentic Coding vollständig lokal zu betreiben – offline, ohne Cloud?

Die Antwort hat mich selbst überrascht.

Ich hab llama.cpp gestartet, das Modell von Hugging Face geladen: Qwen3.5 35B A3B, Unsloth Q4_K_M Variante.

Auf meinen beiden Laptops – 8 GB und 12 GB VRAM – lief das bei rund 30 Tokens pro Sekunde. Mit einer RTX 5090 waren es 170 bis 200. Die Zahl allein ist nicht das Interessante – sondern warum das überhaupt möglich ist.

Mixture of Experts: Denken mit 3B, wissen wie 35B

Qwen3.5 35B A3B ist ein MoE-Modell – Mixture of Experts. Stell es dir vor wie ein Büro voller Spezialisten: Bei jeder Anfrage springt nur das passende Fachteam ein, der Rest bleibt sitzen. Pro Token werden nur 3 von 35 Milliarden Parametern aktiviert. Das Modell denkt mit 3B – weiß aber wie 35B. Deshalb läuft es auf einem "normalen" Laptop.

Google hat mit Gemma 4 dasselbe Prinzip verfolgt und eigene starke kleine Modelle abgeliefert: E4B und E2B. Und das E2B läuft nicht nur auf dem Laptop – sondern auf dem Smartphone. PokeClaw, ein Open-Source-Projekt eines einzelnen Entwicklers, nutzt genau dieses Modell, um ein Android-Gerät autonom zu steuern: Apps öffnen, Nachrichten schreiben, durch die UI navigieren – alles lokal, alles ohne Internetverbindung.

Agentic Coding lokal – funktioniert das?

Mein eigentliches Ziel war agentic Coding – das, was GitHub Copilot mit Claude im Hintergrund macht. Mit den meisten Tools kam Qwen3.5 nicht klar: Opencode, Claude Code, ähnliche Kandidaten. Mit Qwen Code lief es dann.

Ist es so schnell wie Claude Sonnet? Nein. So gut? Noch nicht.

Das CO₂-Bauchgefühl

Aber es gibt noch einen Aspekt, der mich lokale Modelle persönlich sympathischer finden lässt: das Gefühl, nicht bei jeder Anfrage eine Tonne CO₂ auszustoßen. Mein Laptop lüftet merklich, keine Frage. Aber ein lokales Modell auf meiner Hardware läuft wahrscheinlich trotzdem sparsamer als ein Request, der durch ein Rechenzentrum auf der anderen Seite des Atlantiks geroutet wird. Ich kann das nicht exakt beziffern – aber das Bauchgefühl ist da.

Was kommt als nächstes?

Es gibt außerdem noch zwei Entwicklungen, die lokale Modelle nochmal deutlich nach vorne bringen könnten – TurboQuant und DFlash mit Block Diffusion. Beide hab ich selbst noch nicht ausgiebig getestet, aber der Ansatz dahinter klingt vielversprechend. Wenn ich damit durch bin, gibt's wahrscheinlich einen eigenen Post dazu.

Was wäre für euch der Moment, an dem ihr Cloud-KI-Tools ernsthaft in Frage stellt – bessere lokale Qualität, ein gutes Bauchgefühl nicht tonnenweise CO² zu pusten, Datenschutz, oder schlicht der Preis?

Claude-Konkurrenz vom eigenen Laptop: Qwen3.5 im Praxistest

Mixture of Experts: Denken mit 3B, wissen wie 35B

Agentic Coding lokal – funktioniert das?

Das CO₂-Bauchgefühl

Was kommt als nächstes?

Weitere Beiträge

Lokale LLMs mit pi.dev als Harness

DIY-Projekt: Firmenlogo