Gemma 4: KI gratis lokal betreiben

Jeder API-Call ist ein Abo, das du vergessen hast zu kündigen

Die meisten Unternehmen entdecken ihre KI-Kosten genauso wie sie SaaS-Lecks entdecken: zufällig, wenn jemand auf die Kreditkartenabrechnung schaut.

Der erste OpenAI-API-Key wird für ein schnelles Experiment erstellt. Ein Entwickler bindet ihn an einen kleinen Workflow. Dann drei weitere. Dann einen Kundensupport-Bot. Dann ein internes FAQ-Tool. Plötzlich bezahlt man €400/Monat für das, was im Kern ein paar Textverarbeitungs-Skripte sind - und jedes Stück Kundendaten, das das Unternehmen besitzt, wandert auf einen US-Server, den niemand jemals geprüft hat.

Google hat Gemma 4 am 2. April 2026 veröffentlicht. Apache-2.0-Lizenz. Vier Modellgrößen von 2B bis 27B Parametern. Läuft auf einem Laptop, einer Workstation oder einem Unternehmensserver. Kosten pro Call: null. Die Daten bleiben auf der eigenen Hardware.

Das ist kein Forschungsprojekt. Das ist produktionsreife Infrastruktur, die die Wirtschaftlichkeit von KI für jedes Unternehmen verändert, das bereit ist, einen Nachmittag in die Einrichtung zu investieren.

Was KI-Miete wirklich kostet

Hier ist ein Muster, das wir in fast jedem Beratungsprojekt sehen: Ein Unternehmen setzt KI über APIs seit 6 bis 18 Monaten ein. Die erste Rechnung sah überschaubar aus. Jetzt nicht mehr.

Ein Logistik-Unternehmen aus dem Ruhrgebiet kam mit genau dieser Situation zu uns. Sie hatten über 18 Monate fünf interne Automatisierungs-Workflows aufgebaut - Dokumentenverarbeitung, Lieferanten-E-Mail-Klassifizierung, Routenzusammenfassungen, interne FAQ-Antworten und ein einfaches Kunden-Anfragen-Routing. Jeder Workflow schien einzeln günstig.

Zusammen verarbeiteten sie rund 12.000 API-Calls pro Monat über GPT-4o. Kosten: €340/Monat. Das sind €4.080 pro Jahr. Für Dokumentenverarbeitung.

Die Rechtsabteilung hatte auch ein DSGVO-Problem aufgeworfen: Lieferantenverträge, Lieferadressen von Kunden und interne Routing-Daten wurden allesamt an OpenAI-Server in den USA gesendet. Nicht illegal nach aktueller Interpretation - aber nicht sauber. Und der Durchsetzungszeitplan des EU-KI-Gesetzes machte die Rechtsabteilung nervös.

Wir machten ein dreistündiges Audit. Das Ergebnis: Alle fünf Workflows konnten auf Gemma 4 9B lokal umgestellt werden. Die Umstellung brauchte einen Entwickler, einen Nachmittag und ein Serverupgrade von €1.200, das ohnehin schon länger geplant war.

Monat 4 nach der Migration: Die KI-Infrastrukturkosten lagen bei €18/Monat für Strom. Einsparung im ersten Jahr: über €3.000. DSGVO-Problem: geschlossen. Keine externe Datenweitergabe mehr. Compliance-Beauftragter zufrieden.

Das ist kein Ausnahmefall. Das macht lokale KI mit den Betriebskosten.

Was Gemma 4 wirklich ist - und was nicht

Bevor wir zum Deployment kommen, lohnt es sich, präzise zu sein. Gemma 4 ist eine Familie von Sprachmodellen. Kein API-Dienst. Kein Produkt, das man abonniert. Ein Modell - ein Satz von Gewichten - den man herunterlädt und auf eigener Hardware betreibt.

Die vier Größen:

Gemma 4 2B - Läuft auf einem modernen Laptop mit 8 GB RAM. Schnelle Antwortzeiten. Ideal für Klassifizierungsaufgaben, kurze Textextraktion, einfache Zusammenfassungen. Wenn KI auf einem Gerät mit begrenzter Rechenleistung benötigt wird, ist das der Einstieg.
Gemma 4 9B - Der Sweet Spot für die meisten mittelständischen Deployments. Läuft problemlos auf einem Server oder einer Workstation mit 16 GB RAM. Verarbeitet mehrstufiges Denken, Dokumentenanalyse, E-Mail-Entwürfe und deutsch-englischen bilingualem Content. Das ist das Arbeitspferd-Modell.
Gemma 4 27B - Benötigt ernsthafte Hardware (32 GB+ RAM), liefert aber Qualität vergleichbar mit GPT-4 Turbo bei den meisten Geschäftsaufgaben. Wenn der Anwendungsfall nuanciertes Denken oder komplexe Inhaltserstellung erfordert, ist das die richtige Stufe.
Gemma 4 31B - Enterprise-Hardware-Territorium. Für die meisten KMU ist 27B ausreichend.

Die Apache-2.0-Lizenz ist das Detail, das alles verändert. Frühere Open-Source-Modelle kamen oft mit Einschränkungen für den kommerziellen Einsatz oder erforderten Attribution auf Weisen, die den Geschäftseinsatz kompliziert machten. Apache 2.0 ist sauber: man kann es nutzen, modifizieren, in kommerzielle Produkte einbetten und diese Produkte verkaufen. Keine Lizenzgebühren, keine Nutzungsobergrenzen, keine Abhängigkeit von den Preisentscheidungen Dritter.

Agentische Workflow-Unterstützung ist eingebaut. Gemma 4 wurde mit mehrschrittiger autonomer Aufgabenausführung im Sinn entwickelt. Es kann Aktionen verketten, Werkzeuge nutzen und in Pipelines arbeiten - was enorm wichtig ist, wenn man Systeme baut, die echte Arbeit leisten, statt nur Einzelfragen zu beantworten.

Die Ökonomie: Besitzen vs. Mieten

Rechnen wir die Zahlen für ein 20-Personen-Unternehmen durch, das interne Wissensarbeit automatisieren möchte.

Gemietete KI (aktuelle Realität für die meisten):

15.000 API-Calls/Monat über OpenAI GPT-4o: ca. €270-380/Monat
Jahreskosten: €3.240-4.560
Daten verlassen das Gebäude: ja
Kosten für zusätzliche 5.000 Calls: ca. €90
Risiko von Preisänderungen: hoch (OpenAI hat die API-Preise in 24 Monaten viermal geändert)

Lokales Gemma 4 9B:

Hardware: Ein Server-Upgrade oder dedizierte Workstation: €1.000-1.800 einmalig
Strom und Wartung: €15-25/Monat
Jahreskosten (Jahr 1 inkl. Hardware): €1.300-2.100
Jahreskosten (ab Jahr 2): €180-300
Daten verlassen das Gebäude: nein
Kosten für zusätzliche 5.000 Calls: €0
Risiko von Preisänderungen: null

Break-even in Monat 3 bis 5, je nach Hardware-Kosten. Ab Jahr 2 läuft KI für unter €300 pro Jahr.

Ein zweites Beispiel: ein E-Commerce-Unternehmen mit 45 Mitarbeitern, das monatlich rund 8.000 KI-Operationen für Produktbeschreibungsoptimierung, Kundensupport-Entwürfe und Retourenklassifizierung durchführte. Sie hatten einen €220/Monat API-Plan. Nach der Umstellung auf lokales Gemma 4 9B fielen die monatlichen Betriebskosten auf €12 Strom. Die einmaligen Einrichtungskosten betrugen €800 (Hardware-Upgrade ohnehin im Budget). Break-even in Monat 4.

Die Qualität der Produktbeschreibungen? Leicht anders als GPT-4, aber nach zwei Sessions Prompt-Feinjustierung im akzeptablen Bereich. Die Conversion-Rate auf optimierten Beschreibungen: unverändert.

DSGVO ist keine Option - lokale KI macht es einfach

Für jedes Unternehmen in der EU ist die Datenfrage nicht theoretisch. Kundendaten, interne Dokumente oder geschäftssensible Informationen durch eine US-API zu schicken, bedeutet, dass diese Daten außerhalb der EU verarbeitet werden. Unter der DSGVO erfordert das entweder einen Datenverarbeitungsvertrag (DVV) mit dem API-Anbieter, Standardvertragsklauseln (SCCs) oder andere angemessene Garantien.

OpenAI, Anthropic und Google bieten alle DVVs an. Das Papierkram ist handhabbar. Aber es lässt die Datenweitergabe nicht verschwinden - es dokumentiert sie nur. Wenn es jemals einen Vorfall, eine Datenanfrage oder ein Audit gibt, muss man für alles Rechenschaft ablegen, was die eigenen Server verlassen hat.

Mit einem lokalen Modell lautet die Antwort auf “Wohin gingen diese Daten?” schlicht: nirgendwohin. Sie wurden auf dem eigenen Server verarbeitet, vom eigenen Modell, in der eigenen Rechtsordnung.

Das ist kein kleines Detail für Kanzleien, Finanzdienstleister, Healthcare-angrenzende Unternehmen oder alle, die sensible B2B-Vertragsdaten verwalten. Ein praktischer Test: Führe eine einfache Frage durch dein Team - “Wo werden die Daten verarbeitet, wenn wir KI einsetzen?” Wenn niemand eine klare Antwort hat, hast du bereits ein Compliance-Risiko. Die Antwort sollte immer sein: auf unserer Hardware, in unserem Rechenzentrum, in der EU.

Wie wir letzte Woche zu NIS2, AI Act und CSRD beschrieben haben, konvergieren drei regulatorische Rahmenwerke gleichzeitig. Alle drei lassen sich auf Datenkontrolle zurückführen. Lokale KI beseitigt eine ganze Kategorie von Compliance-Risiken - nicht durch Hinzufügen von Kontrollen, sondern durch Eliminierung der Exponierung von vornherein. Und das ohne zusätzliche Rechtsgutachten, ohne aufwendige Vertragsdokumentation, ohne SCCs die nach dem nächsten EU-Urteil wieder überprüft werden müssen.

Das System: Gemma 4 an einem Nachmittag deployen

Man braucht kein Data-Science-Team. Man braucht einen Entwickler, ein paar Stunden und klare Anforderungen für einen spezifischen Anwendungsfall.

Schritt 1: Zuerst die Aufgabe definieren

Der größte Fehler beim KI-Deployment ist, mit der Technologie zu beginnen. Beginne mit der Aufgabe. Was ist ein Prozess, der mehr als 30 Mal pro Monat vorkommt, einem vorhersehbaren Muster folgt und aktuell manuelle Aufmerksamkeit erfordert?

Gute Kandidaten:

Eingehende Support-E-Mails nach Typ und Dringlichkeit klassifizieren
Interne Berichte oder Besprechungsnotizen zusammenfassen
Standard-Antworten aus einer Vorlage entwerfen
Strukturierte Daten aus Rechnungen, Formularen oder Verträgen extrahieren
Inhalte zwischen Deutsch und Englisch übersetzen oder lokalisieren

Einen Pick. Nicht fünf. Einen.

Schritt 2: Die richtige Modellgröße wählen

Für die meisten KMU-Aufgaben ist Gemma 4 9B die Antwort. Dort beginnen. Später upgraden, wenn die Qualität nicht dem Anspruch genügt.

Schritt 3: Ollama installieren

Ollama ist der schnellste Weg, Open-Source-Modelle lokal zu betreiben. Kostenlos, verfügbar für Mac, Linux und Windows, und in unter 10 Minuten eingerichtet.

# Auf Mac oder Linux:
curl -fsSL https://ollama.ai/install.sh | sh

# Gemma 4 9B laden:
ollama pull gemma4:9b

# Lokale API starten:
ollama serve

Das Modell läuft jetzt unter localhost:11434. Die API ist OpenAI-kompatibel - jedes Tool, das mit OpenAI funktioniert (n8n, Make.com, LangChain, benutzerdefinierte Python-Skripte), kann mit einer einzeiligen Änderung auf diesen Endpunkt verwiesen werden.

Schritt 4: Einen Workflow bauen und messen

Den ersten Workflow verbinden. Zwei Wochen parallel zum aktuellen Setup laufen lassen. Ausgabequalität vergleichen. Gesparte Zeit erfassen. Kostenunterschied berechnen. Erst dann ausbauen.

Schritt 5: Prompt-Engineering ist eine einmalige Investition

Open-Source-Modelle reagieren anders auf Prompts als kommerzielle Modelle. Was für GPT-4 funktioniert, muss für Gemma 4 möglicherweise angepasst werden. 2 bis 4 Stunden Prompt-Feinjustierung für den ersten Anwendungsfall einplanen. Danach übertragen sich die Muster auf neue Workflows.

Der Wettbewerbsvorteil, den die meisten übersehen

Hier ist ein Positionierungsargument, das in unseren B2B-Gesprächen gut ankommt: “Wir betreiben KI, ohne dass eure Daten unser Gebäude verlassen.”

Für Enterprise-Kunden ist das ein Beschaffungs-Unterscheidungsmerkmal. Deren Rechts-, IT- und Compliance-Teams wurden durch Anbieter-Datenhandling in Mitleidenschaft gezogen. Ein Dienstleister, der nachweisen kann, dass Kundendaten nie einen Drittanbieter-API berühren, sticht in einem Wettbewerbsgespräch hervor.

Wer interne Tools oder kundenseitige Produkte baut, hat in lokaler KI ein Feature - nicht nur eine Kostenoptimierung. “Betrieben durch lokale KI - eure Daten verlassen das Gebäude nie” ist ein Satz, der in regulierten Branchen, bei datenschutzbewussten Käufern und in jedem öffentlichen Sektor oder Healthcare-angrenzenden Kontext ankommt.

Die agentische Workflow-Verschiebung, die wir beobachten, zeigt, dass 40% der Enterprise-Workflows dieses Jahr agentisch werden. Lokale Modelle sind das Fundament agentischer Systeme, die in großem Maßstab ohne ein preis-per-Call-Preisschild laufen können. Und die 5-Minuten-Lead-Response-Regel beweist, dass Antwortgeschwindigkeit ein direkter Umsatztreiber ist - lokale Modelle eliminieren API-Latenz und Rate-Limits als Engpässe in kundenseitigen Workflows.

KI zu mieten war ein vernünftiger Ausgangspunkt, als es keine lokalen Optionen gab. Heute ist es eine Wahl. Und für die meisten KMU mit stabilen KI-Workloads ist es die falsche.

Ein konkretes Zahlenbeispiel: Angenommen, ein Unternehmen zahlt €250/Monat für KI-API-Kosten. Das sind €3.000 pro Jahr. In drei Jahren: €9.000 - für eine Infrastruktur, die man nicht besitzt, die man jederzeit verlieren kann (Preisänderung, API-Abschaffung, Anbieterwechsel) und die jeden Tag Unternehmensdaten ins Ausland schickt. Mit Gemma 4 lokal: einmalig €1.500 Hardware, danach €200/Jahr Strom. Break-even in Monat 7. Ab Jahr 2: man spart über €2.500 pro Jahr - bei voller Datenkontrolle.

Eine Aktion

Diese Woche: Den einen KI-Task im Unternehmen identifizieren, der das höchste monatliche Call-Volumen hat. Eine Tabelle öffnen. Berechnen, was er in API-Kosten in den letzten drei Monaten gekostet hat.

Dann Ollama herunterladen, Gemma 4 9B laden und die fünf aktuellsten Beispiele lokal durchlaufen lassen.

Wenn die Qualität akzeptabel ist - und für die meisten Dokumentenverarbeitungs-, Klassifizierungs- und Entwurfsaufgaben wird sie es sein - liegt ein klarer Migrationspfad vor. Das Modell ist kostenlos. Die Infrastruktur ist ein Nachmittag. Die Einsparungen beginnen ab Tag eins.

Wenn du Hilfe dabei brauchst zu kartieren, welche deiner Prozesse zuerst für lokale KI in Frage kommen, ist das die Art von fokussierter Analyse, die wir in unserem Strategy Call durchführen. 45 Minuten, konkrete Empfehlungen, kein Pitch-Deck.

Dein KI-Budget sollte für Skalierung ausgegeben werden, nicht für Overhead.