Ihr KI-Coding-Assistent schickt jeden Prompt, jeden Codeblock und jede Projektstruktur an einen Cloud-Server. Für Open-Source-Projekte ist das kein Problem. Für proprietären Code, Kundendaten oder regulierte Branchen? Ein Compliance-Risiko, das viele Unternehmen unterschätzen.

Die gute Nachricht: Lokale Inferenz macht Cloud-APIs optional. Mit NVIDIA OpenShell und Ollama läuft Ihr KI-Assistent komplett auf eigener Hardware — ohne dass eine einzige Zeile Code Ihr Netzwerk verlässt.

Dies ist Teil 2 der Serie «KI-Agenten sicher einsetzen». Teil 1: Policy-as-Code mit NVIDIA OpenShell zeigt, wie Sie den Zugriff Ihres KI-Agenten per YAML-Policy einschränken.

Englische Version (technischer Deep-Dive): m3mo Bytes auf Substack

Was passiert bei jeder KI-Anfrage?

Wenn Ihr KI-Coding-Assistent eine Vervollständigung generiert, sendet er eine API-Anfrage an den Cloud-Provider. Diese Anfrage enthält:

Ihren Prompt — die Anweisung, die Sie eingeben
Kontextfenster — umgebender Code, offene Dateien, Projektstruktur
Konversationshistorie — jede Nachricht Ihrer aktuellen Sitzung

Diese Daten durchqueren das Internet, werden auf der Infrastruktur des Anbieters verarbeitet (typischerweise US-Rechenzentren) und die Antwort kommt zurück. Das gilt für Claude Code, GitHub Copilot, Codex und jeden anderen Cloud-basierten KI-Assistenten.

Für die meisten Entwickler ist das akzeptabel. Aber «akzeptabel» ist nicht dasselbe wie «konform».

Warum Schweizer Unternehmen genau hinschauen sollten

Schweizer Datenschutzgesetz (nDSG/revDSG)

Seit September 2023 verlangt das revidierte Datenschutzgesetz von Organisationen, bei der Übermittlung personenbezogener Daten ins Ausland einen angemessenen Schutz sicherzustellen. Wenn Ihre Codebasis Kundendaten, Personendaten oder Gesundheitsdaten enthält, erfordert die Übermittlung an US-gehostete Inferenz-APIs eine Datenschutz-Folgenabschätzung.

EU AI Act (ab August 2026)

Der EU AI Act wird ab August 2026 vollständig anwendbar. Hochrisiko-KI-Systeme müssen dokumentieren, wo Inferenz stattfindet und wie Daten fliessen. Schweizer Unternehmen mit EU-Kunden oder EU-Niederlassungen sind direkt betroffen.

US CLOUD Act — das unterschätzte Risiko

Selbst wenn Ihr Cloud-Provider Daten in einem Schweizer Rechenzentrum hostet: US-amerikanische Unternehmen (AWS, Azure, GCP) können per US CLOUD Act gezwungen werden, weltweit gespeicherte Daten herauszugeben. Hosting in Zürich schützt nicht, wenn der Provider US-Jurisdiktion unterliegt.

Die Konsequenz: Für regulierte Branchen ist lokale Inferenz keine Option — sie ist eine Compliance-Anforderung.

OpenShells Privacy Router: So funktioniert es

NVIDIA OpenShell löst dieses Problem mit dem Privacy Router. Dieser fängt jede Inferenz-API-Anfrage aus der Sandbox ab und leitet sie an ein konfiguriertes Backend weiter — Cloud oder lokal.

Das Entscheidende: Der KI-Agent weiss nicht, wo Inferenz stattfindet. Der Code in der Sandbox ruft https://inference.local/v1 auf. Der Privacy Router entscheidet, wohin die Anfrage tatsächlich geht.

Der Privacy Router fängt Inferenz-Aufrufe ab, entfernt Sandbox-Credentials und leitet an das konfigurierte Backend weiter.

Drei Schritte passieren bei jedem Inferenz-Aufruf:

Credential-Stripping — Die API-Schlüssel der Sandbox werden entfernt. Der Agent kann keine Credentials leaken.
Credential-Injection — Der Router injiziert die echten Zugangsdaten aus dem Gateway.
Model-Rewriting — Der Agent kann ein beliebiges Modell anfordern. Der Router ersetzt es durch das tatsächlich konfigurierte.

Der Wechsel von Cloud zu lokaler Inferenz erfordert keine Code-Änderungen im Agenten. Sie ändern die Gateway-Konfiguration, und jede Sandbox routet sofort zum neuen Backend.

Einrichtung in 30 Minuten

Schnellstart: Ollama Community Sandbox

Drei Befehle. Ihr KI-Assistent läuft komplett auf Ihrer eigenen Hardware.

Produktiv-Setup: Host-Level Ollama

Für Teams oder dauerhafte Setups — Ollama auf dem Host, geteilt über mehrere Sandboxes:

Wichtig: Verwenden Sie host.openshell.internal statt localhost. Die Sandbox ist ein Container — localhost innerhalb der Sandbox zeigt auf den Container, nicht auf Ihre Maschine.

Null Cloud-Egress: Die stärkste Datenschutz-Position

Kombinieren Sie lokale Inferenz mit den Netzwerk-Policies aus Teil 1 für ein Zero-Cloud-Egress-Setup:

Mit dieser Policy:

Der Agent erreicht inference.local (lokales Ollama)
Der Agent kann npm-Pakete installieren
Der Agent kann nicht api.anthropic.com erreichen
Der Agent kann nicht andere Endpoints erreichen

Das richtige Modell wählen

Nicht alle lokalen Modelle sind gleich. Für Coding-Aufgaben kommt es auf die richtige Wahl an:

VRAM	Modell	Coding-Score	Geschwindigkeit	Einsatz
6 GB	Qwen 2.5 Coder 7B	88.4%	~40 tok/s	Tägliches Coding
10 GB	Qwen 2.5 Coder 14B	~89%	~25 tok/s	Starkes Coding
20 GB	Qwen 2.5 Coder 32B	92.7%	~15 tok/s	Bestes lokales Coding
40 GB+	Llama 3.3 70B	88.4%	~8 tok/s	Allzweck

Benchmarks: HumanEval pass@1, Instruct-Varianten. Quellen: Qwen Technical Report, Meta Llama 3.3.

Empfehlung: Mit einer RTX 4090 (24 GB VRAM) ist Qwen 2.5 Coder 32B bei Q4-Quantisierung die beste Wahl — 92.7% auf HumanEval, vergleichbar mit GPT-4o bei Coding-Aufgaben.

Ehrliche Einschätzung der Leistungsfähigkeit

Lokale Modelle sind gut. Sie sind nicht so gut wie Cloud-Frontier-Modelle. Eine ehrliche Aufstellung:

Funktioniert gut lokal:

Code-Vervollständigung und -Generierung
Refactoring und Umbenennung
Unit-Tests schreiben
Code erklären
Boilerplate generieren

Besser in der Cloud:

Komplexes Multi-Datei-Reasoning
Neuartiger Algorithmus-Entwurf
Architektur-Entscheidungen mit grossem Kontext
Subtile Bug-Erkennung über Abhängigkeiten hinweg

Der pragmatische Ansatz: Lokale Inferenz für Routinearbeit (80% der Arbeit). Cloud für komplexe Aufgaben, die Frontier-Modelle erfordern. Der Wechsel ist trivial:

Änderungen wirken innerhalb von ~5 Sekunden. Kein Neustart nötig.

Kostenvergleich: Wann sich lokale Inferenz lohnt

Cloud-API-Kosten (pro Entwickler, 2026)

Provider	Monatlich (geschätzt)
Anthropic Claude Sonnet	CHF 70–140
OpenAI GPT-4o	CHF 55–110
Anthropic Claude Opus	CHF 280–550

Team mit 5 Entwicklern: CHF 350–2'750/Monat = CHF 4'200–33'000/Jahr

Lokale Inferenz (einmalig + Strom)

Komponente	Kosten
RTX 4090 (24 GB)	CHF 2'200–2'500
Workstation (gebraucht)	CHF 1'000–2'000
Stromkosten	~CHF 25/Monat

GPU-Preise: Schweizer Händler (Digitec, Toppreise.ch), Stand April 2026.

Gesamtkosten erstes Jahr: CHF 3'500–4'800 einmalig + ~CHF 300/Jahr Strom Break-even: 3–8 Monate für ein 5er-Team

Modellrechnung: Schweizer KMU mit 5 Entwicklern

	Cloud (Claude Sonnet)	Lokal (RTX 4090)
Jahr 1	CHF 10'500	CHF 4'800
Jahr 2	CHF 10'500	CHF 300
Jahr 3	CHF 10'500	CHF 300
3-Jahres-Total	CHF 31'500	CHF 5'400
Einsparung	—	CHF 26'100 (83%)

Zusätzlicher Vorteil: Null Compliance-Risiko bei der Datenübermittlung.

Datenhoheit für Ihren KI-Einsatz

Wir analysieren Ihren aktuellen KI-Stack und zeigen, wie Sie Coding-Assistenten datenschutzkonform und kosteneffizient einsetzen — mit lokaler Inferenz und Policy-as-Code.

Unverbindlich

24h Antwortzeit

Persönlicher Kontakt

Jetzt kostenlose Analyse anfordern →

30 Min Erstgespräch • Quick-Scan • Follow-up Detail-Analyse

Serie «KI-Agenten sicher einsetzen»:

Teil 1: Policy-as-Code mit NVIDIA OpenShell ← Vorheriger
Teil 2: Datenhoheit — KI-Agenten ohne Cloud betreiben (dieser Artikel)
Teil 3: KI-Agenten in der CI/CD-Pipeline sichern → Nächster

Quellen:

NVIDIA (2026). «Configure Inference Routing.» NVIDIA OpenShell Developer Guide. https://docs.nvidia.com/openshell/latest/inference/configure.html
NVIDIA (2026). «Run Local Inference with Ollama.» NVIDIA OpenShell Developer Guide. https://docs.nvidia.com/openshell/latest/tutorials/inference-ollama.html
Schweizerische Eidgenossenschaft (2023). «Bundesgesetz über den Datenschutz (DSG).» In Kraft seit 1. September 2023. https://www.fedlex.admin.ch/eli/cc/2022/491/de
Europäisches Parlament (2024). «Verordnung (EU) 2024/1689 — KI-Verordnung (AI Act).» Amtsblatt der Europäischen Union. https://eur-lex.europa.eu/eli/reg/2024/1689
OWASP Foundation (2025). «Top 10 for Large Language Model Applications.» LLM06: Excessive Agency. https://owasp.org/www-project-top-10-for-large-language-model-applications/

Datenhoheit: KI-Agenten ohne Cloud betreiben