arenskrieger.dev
Projekte
ENDE← Zurück zum Profil
Produkt-Design // CTC AI Operations

Souveräner Personal-AI-Assistant

Ein Personal-Assistant mit der Politur einer modernen Chat-App, dessen Inferenz und Chat-Verlauf auf eigener Hardware bleiben – vom Handy überall über einen verschlüsselten Tunnel erreichbar, ohne dass etwas über die Server eines Anbieters läuft. Und eine Architektur, die von einer GPU auf einen Multi-GPU-Team-Host skaliert, indem man Hardware hinzufügt, nicht neu architekturiert.

Design- & Build-Plan · auf der Consumer-Stufe heute baubar, Enterprise-skalierbar – keine gemessene Bereitstellung
Souveränität
Inferenz & Verlauf bleiben lokal
Das Modell läuft auf der Maschine des Betreibers; nur eine Geräte-Discovery-Liste berührt je das Anbieter-Backend.
Mobilität
Personal-Rig, gekoppelt mit Smartphone
Die Heim-GPU über ein Ende-zu-Ende-verschlüsseltes Mesh erreichen – keine offenen Ports, kein Cloud-Relay.
Skalierung
Consumer → Enterprise, ein Stack
Zweite Karte oder 80-GB-Host ergänzen und derselbe Aufbau bedient ein Team mit einem 120B-Modell.
Whitepaper (PDF · EN)
§01 Die Idee

Ein Assistant im Eigenbesitz, nicht zur Miete

Cloud-Assistants sind poliert, legen aber jeden Prompt, jede Antwort und jeden Verlauf auf den Server eines anderen. Lokale Assistants halten die Daten lokal, waren aber Desktop-gebunden – an die Maschine gefesselt, auf der das Modell läuft, nutzlos, sobald man den Schreibtisch verlässt. Dieses Projekt schließt die Lücke: ein souveräner Assistant mit dem Komfort einer modernen Chat-Oberfläche – Chat-Verlauf, Projekte, Artefakte, Tool-Use – vom Handy erreichbar, während Modell und jede Konversation auf eigener Hardware bleiben.

Er ist bewusst zuerst ein Consumer-Produkt, was ihn vom Rest dieses Portfolios unterscheidet: keine Evaluierungs-Infrastruktur und keine professionelle Operator-Workstation, sondern der Alltags-Assistant, in dem eine datenschutzbewusste Person tatsächlich lebt. Das Design, das das zu Hause funktionieren lässt, ist dasselbe, das auf ein Team skaliert – die einzige Variable ist Hardware.

Remote-Zugriff ohne Aufgabe der Souveränität – das Modell läuft auf eigener Hardware, von überall erreichbar.
§02 Remote-Architektur

Der Kern: das Modell, auf dem Handy, über einen verschlüsselten Tunnel

Der Differenzierer ist Remote-Zugriff ohne Aufgabe der Souveränität. Der Host betreibt das Modell hinter einem OpenAI-kompatiblen Endpoint; das Handy ist ein dünner Client; beide verbindet ein Ende-zu-Ende-verschlüsseltes Mesh (WireGuard über Tailscale), das keine Ports öffnet und nichts dem öffentlichen Internet aussetzt. Die Inferenz läuft auf dem Host, der Chat-Verlauf bleibt auf den Geräten, und das Einzige, was das Anbieter-Backend erreicht, ist die Geräte-Discovery-Liste zum Pairing.

CLIENT Handy · überall VERSCHLÜSSELTES MESH · WireGuard / Tailscale keine offenen Ports · kein Cloud-Relay HEIM-HOST RTX 5090 Modell @ :1234 OpenAI-kompatibel Inferenz + Verlauf bleiben hier Anbieter-Backend · nur Discovery-Liste
Das Handy lädt und nutzt ein Modell auf der Heim-GPU, als wäre es lokal. Inferenz und Chat-Verlauf verlassen die Geräte nie; nur die Discovery-Liste zum Pairing berührt den Anbieter. (Erst-Party-Mobile-Client ist iPhone/iPad; beide Enden laufen dieselbe App.)
Transport

Wie der Tunnel tatsächlich funktioniert

Das Mesh ist keine Metapher. Geräte authentifizieren sich einmal, finden sich dann über einen Coordination-Server, der nur öffentliche Schlüssel austauscht – Prompts und Antworten laufen nie durch ihn, sondern peer-to-peer. Die Verschlüsselung ist Standard-WireGuard: ChaCha20-Poly1305 für die Daten, Curve25519 für den Schlüsselaustausch. Weil die Tailscale-Ebene in der App eingebettet ist (via tsnet), gibt es kein separates VPN zu konfigurieren, und NAT-Traversal durchstößt CGNAT, Double-NAT-Heimrouter und Corporate-Firewalls ohne einen einzigen weitergeleiteten Port.

Platzierung

Warum der Host die Inferenz macht, nicht das Handy

Das Handy ist der Client, nicht die Engine – aus einem konkreten Grund: eine Desktop-GPU hat eine weit höhere Speicherbandbreite als ein Handy, und Decoding ist bandbreitenlimitiert – jeder Token liest die aktiven Gewichte einmal über den Bus. Also läuft das Modell auf der 5090 (GDDR7 mit ~1,79 TB/s, ein Vielfaches dessen, was der Speicher eines Handys leistet), während das Handy die Tokens rendert, wie sie ankommen. Über den Tunnel ist der ehrliche Preis nicht Durchsatz, sondern Time-to-First-Token bei langem Kontext – genau deshalb starten Handy-Sessions mit kürzerem (~8k) Kontext, statt so zu tun, als wäre der Round-Trip gratis.

§03 Ehrliches Hardware-Budget

Was in 32 GB passt – und was der Enterprise-Host ergänzt

Souveränität ist nur real, wenn das Modell tatsächlich auf die Karte passt. Auf der Consumer-Stufe – eine einzelne RTX 5090 (32 GB) – läuft ein Modell, das mit Reserve passt: gpt-oss-20b (~13 GB, MXFP4), Qwen3.6-35B-A3B (~24 GB) oder Gemma 4-31B (~19 GB). Ein 120B-Modell gehört nicht hierher: gpt-oss-120b ist selbst in MXFP4 ~60 GB und braucht eine 80-GB-Karte oder einen Zwei-5090-Host – es auf 32 GB zu zwingen hieße, die halben Gewichte in den System-RAM auszulagern und die Bandbreiten-Klippe zu zahlen. Das 120B ist also keine Consumer-Aussage; es ist genau das, was die Enterprise-Stufe ergänzt, sobald die Hardware da ist.

CONSUMER · 1× RTX 5090 · 32 GB 32 GB 13gpt-oss-20b 19gemma4-31b 24qwen3.6 1–2 Nutzer · passt mit Reserve ENTERPRISE · 2× 5090 (64 GB) / 80-GB-Host 64 GB 32 GB · einzelne Karte 60gpt-oss-120b Team via LM Link · 120B übersteigt eine 32-GB-Karte
Consumer: jedes dieser Modelle läuft auf einer Karte mit Platz für KV-Cache. Enterprise: eine zweite 5090 oder ein 80-GB-Host lässt denselben Stack ein ~60-GB-120B-Modell bedienen – genau deshalb passt es nicht auf die einzelne 32-GB-Karte.
Budget

Das Consumer-VRAM-Budget – und warum Enterprise Concurrency ist

Die Consumer-Stufe folgt derselben Disziplin wie die Evaluierungs-Pipeline. Qwen3.6-35B-A3B mit ~24 GB lässt ~6–7 GB für einen q8_0-KV-Cache und Aktivierungen auf der 32-GB-Karte – komfortabel für persönlichen Single-Stream-Betrieb, kein Spill.

Die Enterprise-Stufe verschiebt die Dimensionierungsfrage von Modellgröße zu Concurrency: ein Team zu bedienen heißt viele gleichzeitige Requests, und Continuous Batching gibt jedem eine eigene KV-Cache-Scheibe – der 64–80-GB-Host ist also für parallele Streams dimensioniert, nicht bloß für die größeren 120B-Gewichte. Das ist der wahre Grund, warum ein Team mehr als eine Karte braucht – nicht das Modell allein, sondern alle, die es gleichzeitig nutzen.

§04 Der Stack

Polierte Chat-UX auf modell-agnostischer, tool-kompatibler Basis

Weil der Server OpenAI-kompatibel ist, ist der Assistant nicht an ein Modell oder einen Client gebunden. Das Backend (Ollama, vLLM oder LM Studio) bedient jedes Open-Weight-Modell am Standard-Endpoint; eine moderne Chat-UX-Ebene liefert Chat-Verlauf, Projekte, Artefakte und Tool-Use; und die Remote-Ebene umhüllt das Ganze fürs Handy. Derselbe Endpoint bedeutet: bestehende Tools – agentische CLIs wie OpenCode – laufen unverändert weiter, lokal wie remote.

MODELL-BACKENDOllama · vLLM · LM Studio – jedes Open-Weight-Modell OPENAI-KOMPATIBLE APIlocalhost:1234 – ein Endpoint, modell-agnostisch UX-EBENEChat-Verlauf · Projekte · Artefakte · Tool-Use REMOTE-EBENE Verschlüsseltes Mesh Handy ↔ Host gleicher Endpoint bestehende agentische Tools (z. B. OpenCode) zielen auf denselben Endpoint – keine Neukonfiguration
Ein OpenAI-kompatibler Endpoint unter einer polierten Chat-UX, umhüllt von der Remote-Ebene. Modell tauschen, Interface und jedes Tool behalten, das bereits localhost:1234 anspricht.
Grenzen

Threat-Model: was der Tunnel schützt und was nicht

Der Tunnel verdient den Souveränitäts-Anspruch, aber nicht bedingungslos. Er schützt Daten in Transit (Ende-zu-Ende-verschlüsselt) und hält Inferenz und Verlauf auf eigener Hardware; was er nicht beseitigt, ist das Vertrauen in das Account-System, das die Geräte paart. Es ist eine Privacy- und Convenience-Ebene, kein vollständiges Threat-Model – ein Heim-Rig im lokalen Netz hat eine andere Exposition als eines, das von überall erreichbar ist. Klar gesagt: die Eigenschaft ist „meine Daten bleiben auf meinen Maschinen", nicht „bedingungslos sicher gegen jeden Angreifer" – und über diesen Unterschied präzise zu sein, gehört zur ehrlichen Umsetzung.

§05 Praktischer Use Case

Vom privaten Handy-Assistant zur souveränen Team-KI

SSituation

Eine datenschutzbewusste Fachperson – und später ihre kleine Firma – will einen fähigen Assistant mit dem Komfort einer modernen Chat-Oberfläche, inklusive Zugriff vom Handy. Aber vertrauliches Material darf nicht in eine Drittanbieter-Cloud, und Desktop-gebundene lokale Setups sind unterwegs nutzlos.

TTask

Einen souveränen Assistant aufsetzen, der im Alltag wirklich nutzbar ist, überall vom Handy erreichbar, und ein Modell fährt, das tatsächlich auf die Hardware passt – mit sauberem Pfad zu einem Team, ohne ihn neu zu bauen.

AAction

Auf der Heim-RTX-5090 ein 32-GB-taugliches Modell (gpt-oss-20b oder Qwen3.6-35B-A3B) über den OpenAI-kompatiblen Endpoint bedienen; in eine polierte Chat-UX einbetten (Verlauf, Projekte, Tool-Use); vom Handy über das verschlüsselte Mesh erreichen – keine offenen Ports, Inferenz und Verlauf auf eigener Hardware.

RAngestrebtes Ergebnis · praktischer Impact

Ein Personal-Assistant, den die Besitzerin vom Handy nutzt, wobei nichts ihre Kontrolle verlässt – und ein Ein-Schritt-Enterprise-Pfad: eine zweite 5090 (oder ein 80-GB-Host) ergänzen, und derselbe Stack bedient ein 120B-Modell fürs ganze Team über dasselbe verschlüsselte Mesh, weiterhin ohne öffentliche Exposition. Consumer-Build heute; Enterprise durch Hardware, nicht durch Neuarchitektur.

§06 Status

Auf der Consumer-Stufe jetzt baubar, ehrlich zum Rest

Dies ist ein Build-Plan, keine gemessene Bereitstellung. Die Consumer-Stufe ist heute mit echten, passenden Modellen baubar; die Enterprise-Stufe ist ein Hardware-Schritt, kein Rewrite. Die aktuellen Grenzen der Remote-Ebene werden klar benannt statt geglättet: der Erst-Party-Mobile-Client ist iPhone/iPad, beide Enden laufen dieselbe App, das Pairing ist Account-gebunden, und Handy-Sessions starten mit kürzerem Kontext. Nichts davon ändert die Kern-Eigenschaft – Inferenz und Verlauf bleiben auf eigener Hardware – der ganze Grund, es lokal zu bauen.

Das Design verwandelt eine bekannte Spannung in eine einzige Antwort: die Politur eines Cloud-Assistants mit der Souveränität lokaler Inferenz – in der Tasche getragen, und fähig, von einer Person auf ein Team zu wachsen, indem man eine Karte ergänzt statt die Daten aufzugeben.

Entworfen unter CTC AI Operations, auf derselben Local-Inference-Disziplin wie die Evaluierungs- und Workstation-Projekte, neben denen es steht.