Ein Assistant im Eigenbesitz, nicht zur Miete
Cloud-Assistants sind poliert, legen aber jeden Prompt, jede Antwort und jeden Verlauf auf den Server eines anderen. Lokale Assistants halten die Daten lokal, waren aber Desktop-gebunden – an die Maschine gefesselt, auf der das Modell läuft, nutzlos, sobald man den Schreibtisch verlässt. Dieses Projekt schließt die Lücke: ein souveräner Assistant mit dem Komfort einer modernen Chat-Oberfläche – Chat-Verlauf, Projekte, Artefakte, Tool-Use – vom Handy erreichbar, während Modell und jede Konversation auf eigener Hardware bleiben.
Er ist bewusst zuerst ein Consumer-Produkt, was ihn vom Rest dieses Portfolios unterscheidet: keine Evaluierungs-Infrastruktur und keine professionelle Operator-Workstation, sondern der Alltags-Assistant, in dem eine datenschutzbewusste Person tatsächlich lebt. Das Design, das das zu Hause funktionieren lässt, ist dasselbe, das auf ein Team skaliert – die einzige Variable ist Hardware.
Der Kern: das Modell, auf dem Handy, über einen verschlüsselten Tunnel
Der Differenzierer ist Remote-Zugriff ohne Aufgabe der Souveränität. Der Host betreibt das Modell hinter einem OpenAI-kompatiblen Endpoint; das Handy ist ein dünner Client; beide verbindet ein Ende-zu-Ende-verschlüsseltes Mesh (WireGuard über Tailscale), das keine Ports öffnet und nichts dem öffentlichen Internet aussetzt. Die Inferenz läuft auf dem Host, der Chat-Verlauf bleibt auf den Geräten, und das Einzige, was das Anbieter-Backend erreicht, ist die Geräte-Discovery-Liste zum Pairing.
Wie der Tunnel tatsächlich funktioniert
Das Mesh ist keine Metapher. Geräte authentifizieren sich einmal, finden sich dann über einen Coordination-Server, der nur öffentliche Schlüssel austauscht – Prompts und Antworten laufen nie durch ihn, sondern peer-to-peer. Die Verschlüsselung ist Standard-WireGuard: ChaCha20-Poly1305 für die Daten, Curve25519 für den Schlüsselaustausch. Weil die Tailscale-Ebene in der App eingebettet ist (via tsnet), gibt es kein separates VPN zu konfigurieren, und NAT-Traversal durchstößt CGNAT, Double-NAT-Heimrouter und Corporate-Firewalls ohne einen einzigen weitergeleiteten Port.
Warum der Host die Inferenz macht, nicht das Handy
Das Handy ist der Client, nicht die Engine – aus einem konkreten Grund: eine Desktop-GPU hat eine weit höhere Speicherbandbreite als ein Handy, und Decoding ist bandbreitenlimitiert – jeder Token liest die aktiven Gewichte einmal über den Bus. Also läuft das Modell auf der 5090 (GDDR7 mit ~1,79 TB/s, ein Vielfaches dessen, was der Speicher eines Handys leistet), während das Handy die Tokens rendert, wie sie ankommen. Über den Tunnel ist der ehrliche Preis nicht Durchsatz, sondern Time-to-First-Token bei langem Kontext – genau deshalb starten Handy-Sessions mit kürzerem (~8k) Kontext, statt so zu tun, als wäre der Round-Trip gratis.
Was in 32 GB passt – und was der Enterprise-Host ergänzt
Souveränität ist nur real, wenn das Modell tatsächlich auf die Karte passt. Auf der Consumer-Stufe – eine einzelne RTX 5090 (32 GB) – läuft ein Modell, das mit Reserve passt: gpt-oss-20b (~13 GB, MXFP4), Qwen3.6-35B-A3B (~24 GB) oder Gemma 4-31B (~19 GB). Ein 120B-Modell gehört nicht hierher: gpt-oss-120b ist selbst in MXFP4 ~60 GB und braucht eine 80-GB-Karte oder einen Zwei-5090-Host – es auf 32 GB zu zwingen hieße, die halben Gewichte in den System-RAM auszulagern und die Bandbreiten-Klippe zu zahlen. Das 120B ist also keine Consumer-Aussage; es ist genau das, was die Enterprise-Stufe ergänzt, sobald die Hardware da ist.
Das Consumer-VRAM-Budget – und warum Enterprise Concurrency ist
Die Consumer-Stufe folgt derselben Disziplin wie die Evaluierungs-Pipeline. Qwen3.6-35B-A3B mit ~24 GB lässt ~6–7 GB für einen q8_0-KV-Cache und Aktivierungen auf der 32-GB-Karte – komfortabel für persönlichen Single-Stream-Betrieb, kein Spill.
Die Enterprise-Stufe verschiebt die Dimensionierungsfrage von Modellgröße zu Concurrency: ein Team zu bedienen heißt viele gleichzeitige Requests, und Continuous Batching gibt jedem eine eigene KV-Cache-Scheibe – der 64–80-GB-Host ist also für parallele Streams dimensioniert, nicht bloß für die größeren 120B-Gewichte. Das ist der wahre Grund, warum ein Team mehr als eine Karte braucht – nicht das Modell allein, sondern alle, die es gleichzeitig nutzen.
Polierte Chat-UX auf modell-agnostischer, tool-kompatibler Basis
Weil der Server OpenAI-kompatibel ist, ist der Assistant nicht an ein Modell oder einen Client gebunden. Das Backend (Ollama, vLLM oder LM Studio) bedient jedes Open-Weight-Modell am Standard-Endpoint; eine moderne Chat-UX-Ebene liefert Chat-Verlauf, Projekte, Artefakte und Tool-Use; und die Remote-Ebene umhüllt das Ganze fürs Handy. Derselbe Endpoint bedeutet: bestehende Tools – agentische CLIs wie OpenCode – laufen unverändert weiter, lokal wie remote.
localhost:1234 anspricht.Threat-Model: was der Tunnel schützt und was nicht
Der Tunnel verdient den Souveränitäts-Anspruch, aber nicht bedingungslos. Er schützt Daten in Transit (Ende-zu-Ende-verschlüsselt) und hält Inferenz und Verlauf auf eigener Hardware; was er nicht beseitigt, ist das Vertrauen in das Account-System, das die Geräte paart. Es ist eine Privacy- und Convenience-Ebene, kein vollständiges Threat-Model – ein Heim-Rig im lokalen Netz hat eine andere Exposition als eines, das von überall erreichbar ist. Klar gesagt: die Eigenschaft ist „meine Daten bleiben auf meinen Maschinen", nicht „bedingungslos sicher gegen jeden Angreifer" – und über diesen Unterschied präzise zu sein, gehört zur ehrlichen Umsetzung.
Vom privaten Handy-Assistant zur souveränen Team-KI
Eine datenschutzbewusste Fachperson – und später ihre kleine Firma – will einen fähigen Assistant mit dem Komfort einer modernen Chat-Oberfläche, inklusive Zugriff vom Handy. Aber vertrauliches Material darf nicht in eine Drittanbieter-Cloud, und Desktop-gebundene lokale Setups sind unterwegs nutzlos.
Einen souveränen Assistant aufsetzen, der im Alltag wirklich nutzbar ist, überall vom Handy erreichbar, und ein Modell fährt, das tatsächlich auf die Hardware passt – mit sauberem Pfad zu einem Team, ohne ihn neu zu bauen.
Auf der Heim-RTX-5090 ein 32-GB-taugliches Modell (gpt-oss-20b oder Qwen3.6-35B-A3B) über den OpenAI-kompatiblen Endpoint bedienen; in eine polierte Chat-UX einbetten (Verlauf, Projekte, Tool-Use); vom Handy über das verschlüsselte Mesh erreichen – keine offenen Ports, Inferenz und Verlauf auf eigener Hardware.
Ein Personal-Assistant, den die Besitzerin vom Handy nutzt, wobei nichts ihre Kontrolle verlässt – und ein Ein-Schritt-Enterprise-Pfad: eine zweite 5090 (oder ein 80-GB-Host) ergänzen, und derselbe Stack bedient ein 120B-Modell fürs ganze Team über dasselbe verschlüsselte Mesh, weiterhin ohne öffentliche Exposition. Consumer-Build heute; Enterprise durch Hardware, nicht durch Neuarchitektur.
Auf der Consumer-Stufe jetzt baubar, ehrlich zum Rest
Das Design verwandelt eine bekannte Spannung in eine einzige Antwort: die Politur eines Cloud-Assistants mit der Souveränität lokaler Inferenz – in der Tasche getragen, und fähig, von einer Person auf ein Team zu wachsen, indem man eine Karte ergänzt statt die Daten aufzugeben.
Entworfen unter CTC AI Operations, auf derselben Local-Inference-Disziplin wie die Evaluierungs- und Workstation-Projekte, neben denen es steht.