KI-Agent Privacy Router lokale Inferenz
AI & Automation

Datenhoheit: KI-Agenten ohne Cloud betreiben

Ihr KI-Coding-Assistent schickt jeden Prompt an einen Cloud-Server. Mit NVIDIA OpenShell und Ollama läuft er komplett auf eigener Hardware — ohne dass Code Ihr Netzwerk verlässt.

Mehmet Gökçe
01.04.2026
7 Min Lesezeit

Ihr KI-Coding-Assistent schickt jeden Prompt, jeden Codeblock und jede Projektstruktur an einen Cloud-Server. Für Open-Source-Projekte ist das kein Problem. Für proprietären Code, Kundendaten oder regulierte Branchen? Ein Compliance-Risiko, das viele Unternehmen unterschätzen.

Die gute Nachricht: Lokale Inferenz macht Cloud-APIs optional. Mit NVIDIA OpenShell und Ollama läuft Ihr KI-Assistent komplett auf eigener Hardware — ohne dass eine einzige Zeile Code Ihr Netzwerk verlässt.


Dies ist Teil 2 der Serie «KI-Agenten sicher einsetzen». Teil 1: Policy-as-Code mit NVIDIA OpenShell zeigt, wie Sie den Zugriff Ihres KI-Agenten per YAML-Policy einschränken.

Englische Version (technischer Deep-Dive): m3mo Bytes auf Substack


Was passiert bei jeder KI-Anfrage?

Wenn Ihr KI-Coding-Assistent eine Vervollständigung generiert, sendet er eine API-Anfrage an den Cloud-Provider. Diese Anfrage enthält:

  • Ihren Prompt — die Anweisung, die Sie eingeben
  • Kontextfenster — umgebender Code, offene Dateien, Projektstruktur
  • Konversationshistorie — jede Nachricht Ihrer aktuellen Sitzung

Diese Daten durchqueren das Internet, werden auf der Infrastruktur des Anbieters verarbeitet (typischerweise US-Rechenzentren) und die Antwort kommt zurück. Das gilt für Claude Code, GitHub Copilot, Codex und jeden anderen Cloud-basierten KI-Assistenten.

Für die meisten Entwickler ist das akzeptabel. Aber «akzeptabel» ist nicht dasselbe wie «konform».


Warum Schweizer Unternehmen genau hinschauen sollten

Schweizer Datenschutzgesetz (nDSG/revDSG)

Seit September 2023 verlangt das revidierte Datenschutzgesetz von Organisationen, bei der Übermittlung personenbezogener Daten ins Ausland einen angemessenen Schutz sicherzustellen. Wenn Ihre Codebasis Kundendaten, Personendaten oder Gesundheitsdaten enthält, erfordert die Übermittlung an US-gehostete Inferenz-APIs eine Datenschutz-Folgenabschätzung.

EU AI Act (ab August 2026)

Der EU AI Act wird ab August 2026 vollständig anwendbar. Hochrisiko-KI-Systeme müssen dokumentieren, wo Inferenz stattfindet und wie Daten fliessen. Schweizer Unternehmen mit EU-Kunden oder EU-Niederlassungen sind direkt betroffen.

US CLOUD Act — das unterschätzte Risiko

Selbst wenn Ihr Cloud-Provider Daten in einem Schweizer Rechenzentrum hostet: US-amerikanische Unternehmen (AWS, Azure, GCP) können per US CLOUD Act gezwungen werden, weltweit gespeicherte Daten herauszugeben. Hosting in Zürich schützt nicht, wenn der Provider US-Jurisdiktion unterliegt.

Die Konsequenz: Für regulierte Branchen ist lokale Inferenz keine Option — sie ist eine Compliance-Anforderung.


OpenShells Privacy Router: So funktioniert es

NVIDIA OpenShell löst dieses Problem mit dem Privacy Router. Dieser fängt jede Inferenz-API-Anfrage aus der Sandbox ab und leitet sie an ein konfiguriertes Backend weiter — Cloud oder lokal.

Das Entscheidende: Der KI-Agent weiss nicht, wo Inferenz stattfindet. Der Code in der Sandbox ruft https://inference.local/v1 auf. Der Privacy Router entscheidet, wohin die Anfrage tatsächlich geht.

Der Privacy Router fängt Inferenz-Aufrufe ab, entfernt Sandbox-Credentials und leitet an das konfigurierte Backend weiter.

Drei Schritte passieren bei jedem Inferenz-Aufruf:

  1. Credential-Stripping — Die API-Schlüssel der Sandbox werden entfernt. Der Agent kann keine Credentials leaken.
  2. Credential-Injection — Der Router injiziert die echten Zugangsdaten aus dem Gateway.
  3. Model-Rewriting — Der Agent kann ein beliebiges Modell anfordern. Der Router ersetzt es durch das tatsächlich konfigurierte.

Der Wechsel von Cloud zu lokaler Inferenz erfordert keine Code-Änderungen im Agenten. Sie ändern die Gateway-Konfiguration, und jede Sandbox routet sofort zum neuen Backend.


Einrichtung in 30 Minuten

Schnellstart: Ollama Community Sandbox


Drei Befehle. Ihr KI-Assistent läuft komplett auf Ihrer eigenen Hardware.

Produktiv-Setup: Host-Level Ollama

Für Teams oder dauerhafte Setups — Ollama auf dem Host, geteilt über mehrere Sandboxes:


Wichtig: Verwenden Sie host.openshell.internal statt localhost. Die Sandbox ist ein Container — localhost innerhalb der Sandbox zeigt auf den Container, nicht auf Ihre Maschine.


Null Cloud-Egress: Die stärkste Datenschutz-Position

Kombinieren Sie lokale Inferenz mit den Netzwerk-Policies aus Teil 1 für ein Zero-Cloud-Egress-Setup:


Mit dieser Policy:

  • Der Agent erreicht inference.local (lokales Ollama) ✅
  • Der Agent kann npm-Pakete installieren ✅
  • Der Agent kann nicht api.anthropic.com erreichen ❌
  • Der Agent kann nicht andere Endpoints erreichen ❌

Das richtige Modell wählen

Nicht alle lokalen Modelle sind gleich. Für Coding-Aufgaben kommt es auf die richtige Wahl an:

VRAMModellCoding-ScoreGeschwindigkeitEinsatz
6 GBQwen 2.5 Coder 7B88.4%~40 tok/sTägliches Coding
10 GBQwen 2.5 Coder 14B~89%~25 tok/sStarkes Coding
20 GBQwen 2.5 Coder 32B92.7%~15 tok/sBestes lokales Coding
40 GB+Llama 3.3 70B88.4%~8 tok/sAllzweck

Benchmarks: HumanEval pass@1, Instruct-Varianten. Quellen: Qwen Technical Report, Meta Llama 3.3.

Empfehlung: Mit einer RTX 4090 (24 GB VRAM) ist Qwen 2.5 Coder 32B bei Q4-Quantisierung die beste Wahl — 92.7% auf HumanEval, vergleichbar mit GPT-4o bei Coding-Aufgaben.

Ehrliche Einschätzung der Leistungsfähigkeit

Lokale Modelle sind gut. Sie sind nicht so gut wie Cloud-Frontier-Modelle. Eine ehrliche Aufstellung:

Funktioniert gut lokal:

  • Code-Vervollständigung und -Generierung
  • Refactoring und Umbenennung
  • Unit-Tests schreiben
  • Code erklären
  • Boilerplate generieren

Besser in der Cloud:

  • Komplexes Multi-Datei-Reasoning
  • Neuartiger Algorithmus-Entwurf
  • Architektur-Entscheidungen mit grossem Kontext
  • Subtile Bug-Erkennung über Abhängigkeiten hinweg

Der pragmatische Ansatz: Lokale Inferenz für Routinearbeit (80% der Arbeit). Cloud für komplexe Aufgaben, die Frontier-Modelle erfordern. Der Wechsel ist trivial:


Änderungen wirken innerhalb von ~5 Sekunden. Kein Neustart nötig.


Kostenvergleich: Wann sich lokale Inferenz lohnt

Cloud-API-Kosten (pro Entwickler, 2026)

ProviderMonatlich (geschätzt)
Anthropic Claude SonnetCHF 70–140
OpenAI GPT-4oCHF 55–110
Anthropic Claude OpusCHF 280–550

Team mit 5 Entwicklern: CHF 350–2'750/Monat = CHF 4'200–33'000/Jahr

Lokale Inferenz (einmalig + Strom)

KomponenteKosten
RTX 4090 (24 GB)CHF 2'200–2'500
Workstation (gebraucht)CHF 1'000–2'000
Stromkosten~CHF 25/Monat

GPU-Preise: Schweizer Händler (Digitec, Toppreise.ch), Stand April 2026.

Gesamtkosten erstes Jahr: CHF 3'500–4'800 einmalig + ~CHF 300/Jahr Strom Break-even: 3–8 Monate für ein 5er-Team

Modellrechnung: Schweizer KMU mit 5 Entwicklern

Cloud (Claude Sonnet)Lokal (RTX 4090)
Jahr 1CHF 10'500CHF 4'800
Jahr 2CHF 10'500CHF 300
Jahr 3CHF 10'500CHF 300
3-Jahres-TotalCHF 31'500CHF 5'400
EinsparungCHF 26'100 (83%)

Zusätzlicher Vorteil: Null Compliance-Risiko bei der Datenübermittlung.


Datenhoheit für Ihren KI-Einsatz

Wir analysieren Ihren aktuellen KI-Stack und zeigen, wie Sie Coding-Assistenten datenschutzkonform und kosteneffizient einsetzen — mit lokaler Inferenz und Policy-as-Code.

Unverbindlich
24h Antwortzeit
Persönlicher Kontakt
Jetzt kostenlose Analyse anfordern →
30 Min Erstgespräch • Quick-Scan • Follow-up Detail-Analyse

Serie «KI-Agenten sicher einsetzen»:


Quellen:

Mehmet Gökçe

Mehmet Gökçe

Founder & CEO

Gründer von MEMOTECH mit über 26 Jahren Erfahrung. Spezialisiert auf E-Commerce-Lösungen und digitale Transformation für Schweizer KMU.

Weitere Artikel

Performance & Skalierung

Warum Ihr Online-Shop langsam ist: Die versteckte MySQL-Bremse

In 80% der Fälle ist die Datenbank falsch indexiert. Jede Sekunde Ladezeit kostet 7% Conversion. Die Lösung: 2 Stunden Arbeit statt neuer Hardware.

Weiterlesen
Performance & Skalierung

Shopware Performance-Optimierung 2025: So beschleunigen Schweizer Online-Shops Ladezeiten und erhöhen Umsatz

Shopware-Shops mit Ladezeiten über 3 Sekunden verlieren 50% potenzielle Käufer. Entdecken Sie praxiserprobte Performance-Strategien speziell für Schweizer E-Commerce.

Weiterlesen
AI & Automation

Apertus: Warum die Schweiz gerade die Zukunft der offenen KI definiert hat

Während die Welt über OpenAI, Google und Meta diskutiert, hat die Schweiz mit Apertus das erste vollständig offene Large Language Model veröffentlicht – einen Gegenentwurf zur Corporate AI.

Weiterlesen