Lokale KI bezeichnet KI-Modelle, die komplett offline auf dem eigenen Rechner laufen. Kein Abo, keine Cloud, keine Daten, die das Gerät verlassen. Im YouTube-Video skizziert Leonard Schmedding fünf Wege zu offenen Modellen. Er zeigt, wie sie kostenlos im Corporate LLM laufen.
Viele unterschätzen lokale KI massiv. Dabei liegen offene Modelle nur noch rund vier Monate hinter den Flaggschiffen. Beobachter sehen darin eine ernsthafte Alternative für alle, die kostenlos und datensicher arbeiten wollen.
Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Warum lokale KI gerade aufholt
Eine Stanford-Auswertung liefert die Zahl: Offene Modelle beantworten heute 71,3 Prozent aller Chat-Anfragen korrekt. 2023 waren es erst 23 Prozent. Der Sprung gelingt zu einem Bruchteil der Kosten und des Energieverbrauchs.
Auch die Kostenkurve spricht eine klare Sprache. Für dieselbe Aufgabe fielen die Preise in 18 Monaten um das 280-Fache. Chinesische Open-Source-Modelle werden in den USA inzwischen stärker genutzt als die heimischen Cloud-Modelle.
Der Grund ist die Kosteneffizienz. Google liefert mit den Gemma-Modellen sogar KI, die auf einem Smartphone läuft. Damit rückt die Frage nach der passenden Hardware in den Mittelpunkt.
Vom MIT-Labor zu Llama.cpp
Der Trend ist nicht neu. In den 80er Jahren baute die MIT-Ausgründung Symbolics spezielle Lisp-Maschinen für die KI jener Zeit. Diese Firma sicherte sich auch die allererste .com-Domain der Internet-Geschichte.
Mit dem Deep-Learning-Durchbruch ab 2012 wanderte KI in riesige Rechenzentren. Erst der März 2023 drehte den Trend. Metas Sprachmodell Llama landete als 220 GB großer Torrent im offenen Netz.
Kaum jemand hatte die Hardware dafür. Der bulgarische Entwickler Georgi Gerganov baute an einem Wochenende Llama.cpp. Das Werkzeug schrumpft Modelle per Quantisierung so weit, dass sie auf einem normalen Laptop laufen.
China-Chips und Apple MLX als Treiber
Zwei Hardware-Trends beschleunigen lokale KI, ganz ohne Nvidia. Erstens senkte DeepSeek den Preis von V4 Pro dauerhaft um 75 Prozent. Damit fördert China den Absatz eigener Huawei-Chips im Chipkrieg.
Zweitens überrascht ausgerechnet Apple. Das MLX-Framework und der Unified Memory schneiden Modelle direkt auf den Mac-Chip zu. Ein MacBook Pro mit M5 Max fährt ein 120-Milliarden-Modell wie GPT-OSS. Es liefert bis zu 80 Tokens pro Sekunde.
Zum Vergleich: GPT-5.5 liefert in der Cloud rund 60 Tokens pro Sekunde. Setzt sich die Kurve fort, läuft auf einem M6-MacBook bald das größte offene Modell der Welt. Vollständig offline auf dem Arbeitslaptop.
Fünf Wege, lokale KI zu nutzen
Weg 1: Lokal auf der eigenen Maschine. Das Modell läuft direkt auf dem Rechner. Tools wie Llama.cpp, LM Studio oder Ollama machen das einfach. Ollama beschleunigt seit Juni über Vulkan auch AMD- und Intel-Grafikkarten.
Weg 2: Im Browser testen. Auf LM Arena lassen sich Modelle nebeneinander vergleichen. Hugging Face Spaces bietet fertige Demos. Google Colab stellt kostenlos eine Grafikkarte bereit. Privat ist das nicht, zum Lernen aber ideal.
Weg 3: Inferenz-APIs. Anbieter wie Groq, Together AI oder Nebius hosten offene Modelle. Der Zugriff gelingt mit wenigen Zeilen Code. Groq erreicht dabei mehrere Hundert Tokens pro Sekunde.
Weg 4: Eigener Server. Volle Kontrolle verlangt echte Grafikleistung. Eine Nvidia H100 kostet rund 30.000 Euro und reicht für ein 70-Milliarden-Modell und 100 Mitarbeiter. Hetzner-GPU-Server gelten als günstigere Alternative.
Weg 5: KI direkt in der App. Apple Intelligence und Gemini Nano stecken ein 3-Milliarden-Modell in fast jede App. Diese KI läuft offline, ohne separate Installation. Bald läuft lokale KI überall einfach mit.
Lokale KI im Corporate LLM nutzen
Die Plattform Corporate LLM bindet jedes lokale Modell kostenlos und unlimitiert ein. Unter Einstellungen findet sich die Sektion „Bring your own model“. So lässt sich Ollama oder MLX direkt an reale Use-Cases koppeln.
Ein wichtiger Punkt: Das Gemma-4-26B als Mixture-of-Experts-Modell aktiviert nur 4 von 26 Milliarden Parametern pro Token. Es läuft dreimal schneller als das dichte 12B-Modell. Bei gleicher Größe gewinnt also stets das MoE-Modell.
Stark ist die Datenextraktion aus vertraulichen Dokumenten. Beim Vertrags-Chat erkennt das lokale Modell Parteien, Laufzeit und Sitz korrekt. Für Bilder dient die Vision-Fähigkeit von Modellen wie Qwen 3 VL der sauberen OCR.
Besonders wertvoll ist die PII-Anonymisierung. Ein lokales Modell entfernt sensible Daten, bevor die Anfrage an ein Cloud-Modell geht. Branchenkenner sehen darin einen der überzeugendsten Anwendungsfälle für offene Modelle.
Grenzen und der Hybrid-Ansatz
Lokale KI hat klare Grenzen. Bei Agentic Coding führen Cloud-Modelle wie Claude Code oder Codex deutlich. Auch finanziell lohnt sich eigene Hardware erst ab rund 50 bis 100 Millionen Token pro Monat.
Die ehrliche Einschätzung heißt nicht entweder oder, sondern Hybrid. Sensible Dokumente, hohe Volumen und Offline-Fälle laufen lokal. Für Spitzenleistung bei unkritischen Daten bleibt die Cloud die richtige Wahl.
Fazit: Lokale KI wird zum Standard
Die stärkste Kraft arbeitet im Hintergrund: die Kostenkurve. Rechenleistung verdoppelt sich grob jedes Jahr, wie Ray Kurzweil es im „Law of Accelerating Returns“ beschrieb. Was heute im Rechenzentrum läuft, läuft morgen auf dem Laptop.
Lokale KI ist damit kein Gegentrend mehr, sondern die logische Endstation. Beobachter sehen den Punkt nahen, an dem die mächtigste Technologie unserer Zeit nicht mehr wenigen Konzernen gehört. Der Einstieg gelingt mit Ollama und einem kleinen Modell.
Häufige Fragen
Was ist lokale KI?
Lokale KI sind KI-Modelle, die direkt auf deinem eigenen Gerät laufen, statt in der Cloud. Du lädst ein offenes Modell herunter und nutzt es offline. Kein Abo, keine externen Server, keine Daten, die das Gerät verlassen. Programme wie Ollama oder LM Studio machen den Einstieg einfach. So arbeitest du kostenlos und datensicher mit KI.
Welche Hardware brauche ich für lokale KI?
Als grobe Faustregel gilt bei Standard-Quantisierung Q4: Die Zahl der Parameter in Milliarden entspricht etwa dem nötigen Grafikspeicher in Gigabyte. Ein 12-Milliarden-Modell passt also auf rund 16 GB. Ziehe etwa 20 Prozent für System und Kontext ab. Bei einem Mac zählt der Unified Memory. Dann wählst du das größte Modell, das auf deine Maschine passt.
Sind lokale KI-Modelle so gut wie ChatGPT?
Offene Modelle liegen laut Stanford nur noch rund vier Monate hinter den Flaggschiffen. Sie beantworten 71,3 Prozent aller Anfragen korrekt. Für Datenextraktion, OCR und Dokumenten-Chat reichen sie sehr gut. Bei komplexem Agentic Coding und feinem Frontend-Design führen Cloud-Modelle wie Claude weiter. Ein Hybrid-Ansatz kombiniert beide Stärken.
Was ist ein Mixture-of-Experts-Modell?
Ein Mixture-of-Experts-Modell teilt sich in spezialisierte Bereiche auf. Pro Token sind nur wenige Experten aktiv. Beim Gemma-4-26B sind das nur 4 von 26 Milliarden Parametern. Dadurch läuft es dreimal schneller als ein dichtes 12B-Modell. Bei ähnlicher Qualität ist das MoE-Modell also die schnellere Wahl für lokale Hardware.









