Datenhoheit: KI-Agenten ohne Cloud betreiben
Ihr KI-Coding-Assistent schickt jeden Prompt an einen Cloud-Server. Mit NVIDIA OpenShell und Ollama läuft er komplett auf eigener Hardware — ohne dass Code Ihr Netzwerk verlässt.
Ihr KI-Coding-Assistent schickt jeden Prompt, jeden Codeblock und jede Projektstruktur an einen Cloud-Server. Für Open-Source-Projekte ist das kein Problem. Für proprietären Code, Kundendaten oder regulierte Branchen? Ein Compliance-Risiko, das viele Unternehmen unterschätzen.
Die gute Nachricht: Lokale Inferenz macht Cloud-APIs optional. Mit NVIDIA OpenShell und Ollama läuft Ihr KI-Assistent komplett auf eigener Hardware — ohne dass eine einzige Zeile Code Ihr Netzwerk verlässt.
Dies ist Teil 2 der Serie «KI-Agenten sicher einsetzen». Teil 1: Policy-as-Code mit NVIDIA OpenShell zeigt, wie Sie den Zugriff Ihres KI-Agenten per YAML-Policy einschränken.
Englische Version (technischer Deep-Dive): m3mo Bytes auf Substack
Was passiert bei jeder KI-Anfrage?
Wenn Ihr KI-Coding-Assistent eine Vervollständigung generiert, sendet er eine API-Anfrage an den Cloud-Provider. Diese Anfrage enthält:
- Ihren Prompt — die Anweisung, die Sie eingeben
- Kontextfenster — umgebender Code, offene Dateien, Projektstruktur
- Konversationshistorie — jede Nachricht Ihrer aktuellen Sitzung
Diese Daten durchqueren das Internet, werden auf der Infrastruktur des Anbieters verarbeitet (typischerweise US-Rechenzentren) und die Antwort kommt zurück. Das gilt für Claude Code, GitHub Copilot, Codex und jeden anderen Cloud-basierten KI-Assistenten.
Für die meisten Entwickler ist das akzeptabel. Aber «akzeptabel» ist nicht dasselbe wie «konform».
Warum Schweizer Unternehmen genau hinschauen sollten
Schweizer Datenschutzgesetz (nDSG/revDSG)
Seit September 2023 verlangt das revidierte Datenschutzgesetz von Organisationen, bei der Übermittlung personenbezogener Daten ins Ausland einen angemessenen Schutz sicherzustellen. Wenn Ihre Codebasis Kundendaten, Personendaten oder Gesundheitsdaten enthält, erfordert die Übermittlung an US-gehostete Inferenz-APIs eine Datenschutz-Folgenabschätzung.
EU AI Act (ab August 2026)
Der EU AI Act wird ab August 2026 vollständig anwendbar. Hochrisiko-KI-Systeme müssen dokumentieren, wo Inferenz stattfindet und wie Daten fliessen. Schweizer Unternehmen mit EU-Kunden oder EU-Niederlassungen sind direkt betroffen.
US CLOUD Act — das unterschätzte Risiko
Selbst wenn Ihr Cloud-Provider Daten in einem Schweizer Rechenzentrum hostet: US-amerikanische Unternehmen (AWS, Azure, GCP) können per US CLOUD Act gezwungen werden, weltweit gespeicherte Daten herauszugeben. Hosting in Zürich schützt nicht, wenn der Provider US-Jurisdiktion unterliegt.
Die Konsequenz: Für regulierte Branchen ist lokale Inferenz keine Option — sie ist eine Compliance-Anforderung.
OpenShells Privacy Router: So funktioniert es
NVIDIA OpenShell löst dieses Problem mit dem Privacy Router. Dieser fängt jede Inferenz-API-Anfrage aus der Sandbox ab und leitet sie an ein konfiguriertes Backend weiter — Cloud oder lokal.
Das Entscheidende: Der KI-Agent weiss nicht, wo Inferenz stattfindet. Der Code in der Sandbox ruft https://inference.local/v1 auf. Der Privacy Router entscheidet, wohin die Anfrage tatsächlich geht.
Der Privacy Router fängt Inferenz-Aufrufe ab, entfernt Sandbox-Credentials und leitet an das konfigurierte Backend weiter.
Drei Schritte passieren bei jedem Inferenz-Aufruf:
- Credential-Stripping — Die API-Schlüssel der Sandbox werden entfernt. Der Agent kann keine Credentials leaken.
- Credential-Injection — Der Router injiziert die echten Zugangsdaten aus dem Gateway.
- Model-Rewriting — Der Agent kann ein beliebiges Modell anfordern. Der Router ersetzt es durch das tatsächlich konfigurierte.
Der Wechsel von Cloud zu lokaler Inferenz erfordert keine Code-Änderungen im Agenten. Sie ändern die Gateway-Konfiguration, und jede Sandbox routet sofort zum neuen Backend.
Einrichtung in 30 Minuten
Schnellstart: Ollama Community Sandbox
Drei Befehle. Ihr KI-Assistent läuft komplett auf Ihrer eigenen Hardware.
Produktiv-Setup: Host-Level Ollama
Für Teams oder dauerhafte Setups — Ollama auf dem Host, geteilt über mehrere Sandboxes:
Wichtig: Verwenden Sie host.openshell.internal statt localhost. Die Sandbox ist ein Container — localhost innerhalb der Sandbox zeigt auf den Container, nicht auf Ihre Maschine.
Null Cloud-Egress: Die stärkste Datenschutz-Position
Kombinieren Sie lokale Inferenz mit den Netzwerk-Policies aus Teil 1 für ein Zero-Cloud-Egress-Setup:
Mit dieser Policy:
- Der Agent erreicht
inference.local(lokales Ollama) ✅ - Der Agent kann npm-Pakete installieren ✅
- Der Agent kann nicht
api.anthropic.comerreichen ❌ - Der Agent kann nicht andere Endpoints erreichen ❌
Das richtige Modell wählen
Nicht alle lokalen Modelle sind gleich. Für Coding-Aufgaben kommt es auf die richtige Wahl an:
| VRAM | Modell | Coding-Score | Geschwindigkeit | Einsatz |
|---|---|---|---|---|
| 6 GB | Qwen 2.5 Coder 7B | 88.4% | ~40 tok/s | Tägliches Coding |
| 10 GB | Qwen 2.5 Coder 14B | ~89% | ~25 tok/s | Starkes Coding |
| 20 GB | Qwen 2.5 Coder 32B | 92.7% | ~15 tok/s | Bestes lokales Coding |
| 40 GB+ | Llama 3.3 70B | 88.4% | ~8 tok/s | Allzweck |
Benchmarks: HumanEval pass@1, Instruct-Varianten. Quellen: Qwen Technical Report, Meta Llama 3.3.
Empfehlung: Mit einer RTX 4090 (24 GB VRAM) ist Qwen 2.5 Coder 32B bei Q4-Quantisierung die beste Wahl — 92.7% auf HumanEval, vergleichbar mit GPT-4o bei Coding-Aufgaben.
Ehrliche Einschätzung der Leistungsfähigkeit
Lokale Modelle sind gut. Sie sind nicht so gut wie Cloud-Frontier-Modelle. Eine ehrliche Aufstellung:
Funktioniert gut lokal:
- Code-Vervollständigung und -Generierung
- Refactoring und Umbenennung
- Unit-Tests schreiben
- Code erklären
- Boilerplate generieren
Besser in der Cloud:
- Komplexes Multi-Datei-Reasoning
- Neuartiger Algorithmus-Entwurf
- Architektur-Entscheidungen mit grossem Kontext
- Subtile Bug-Erkennung über Abhängigkeiten hinweg
Der pragmatische Ansatz: Lokale Inferenz für Routinearbeit (80% der Arbeit). Cloud für komplexe Aufgaben, die Frontier-Modelle erfordern. Der Wechsel ist trivial:
Änderungen wirken innerhalb von ~5 Sekunden. Kein Neustart nötig.
Kostenvergleich: Wann sich lokale Inferenz lohnt
Cloud-API-Kosten (pro Entwickler, 2026)
| Provider | Monatlich (geschätzt) |
|---|---|
| Anthropic Claude Sonnet | CHF 70–140 |
| OpenAI GPT-4o | CHF 55–110 |
| Anthropic Claude Opus | CHF 280–550 |
Team mit 5 Entwicklern: CHF 350–2'750/Monat = CHF 4'200–33'000/Jahr
Lokale Inferenz (einmalig + Strom)
| Komponente | Kosten |
|---|---|
| RTX 4090 (24 GB) | CHF 2'200–2'500 |
| Workstation (gebraucht) | CHF 1'000–2'000 |
| Stromkosten | ~CHF 25/Monat |
GPU-Preise: Schweizer Händler (Digitec, Toppreise.ch), Stand April 2026.
Gesamtkosten erstes Jahr: CHF 3'500–4'800 einmalig + ~CHF 300/Jahr Strom Break-even: 3–8 Monate für ein 5er-Team
Modellrechnung: Schweizer KMU mit 5 Entwicklern
| Cloud (Claude Sonnet) | Lokal (RTX 4090) | |
|---|---|---|
| Jahr 1 | CHF 10'500 | CHF 4'800 |
| Jahr 2 | CHF 10'500 | CHF 300 |
| Jahr 3 | CHF 10'500 | CHF 300 |
| 3-Jahres-Total | CHF 31'500 | CHF 5'400 |
| Einsparung | — | CHF 26'100 (83%) |
Zusätzlicher Vorteil: Null Compliance-Risiko bei der Datenübermittlung.
Datenhoheit für Ihren KI-Einsatz
Wir analysieren Ihren aktuellen KI-Stack und zeigen, wie Sie Coding-Assistenten datenschutzkonform und kosteneffizient einsetzen — mit lokaler Inferenz und Policy-as-Code.
Serie «KI-Agenten sicher einsetzen»:
- Teil 1: Policy-as-Code mit NVIDIA OpenShell ← Vorheriger
- Teil 2: Datenhoheit — KI-Agenten ohne Cloud betreiben (dieser Artikel)
- Teil 3: KI-Agenten in der CI/CD-Pipeline sichern → Nächster
Quellen:
-
NVIDIA (2026). «Configure Inference Routing.» NVIDIA OpenShell Developer Guide. https://docs.nvidia.com/openshell/latest/inference/configure.html
-
NVIDIA (2026). «Run Local Inference with Ollama.» NVIDIA OpenShell Developer Guide. https://docs.nvidia.com/openshell/latest/tutorials/inference-ollama.html
-
Schweizerische Eidgenossenschaft (2023). «Bundesgesetz über den Datenschutz (DSG).» In Kraft seit 1. September 2023. https://www.fedlex.admin.ch/eli/cc/2022/491/de
-
Europäisches Parlament (2024). «Verordnung (EU) 2024/1689 — KI-Verordnung (AI Act).» Amtsblatt der Europäischen Union. https://eur-lex.europa.eu/eli/reg/2024/1689
-
OWASP Foundation (2025). «Top 10 for Large Language Model Applications.» LLM06: Excessive Agency. https://owasp.org/www-project-top-10-for-large-language-model-applications/

Mehmet Gökçe
Founder & CEO
Gründer von MEMOTECH mit über 26 Jahren Erfahrung. Spezialisiert auf E-Commerce-Lösungen und digitale Transformation für Schweizer KMU.
