Die Risikofläche, die Single-Agent-Evaluierung nicht sieht
Ein sicherer Agent und ein sicherer Agent ergeben zusammen kein sicheres Paar. Sobald Agenten delegieren, Tools teilen und die Outputs des anderen lesen, entstehen neue Failure-Modes, die Eigenschaften der Interaktion sind, nicht eines einzelnen Modells: Zwei individuell korrekte Agenten verstärken einen schlechten Plan; ein Fehler des einen gilt dem nächsten als Fakt und kaskadiert; eine Prompt Injection landet im Kontext eines Agenten und propagiert über die Messages, die er weiterschickt. Nichts davon ist sichtbar, wenn jeder Agent allein bewertet wird – das Objekt unter Test ist die Flotte, und das Risiko ist kombinatorisch in ihrer Größe.
Eine Failure-Mode-Taxonomie für Multi-Agent-Systeme
Messung braucht eine Karte dessen, was zu messen ist. Der erste Arbeitsstrang ist eine strukturierte Taxonomie der Failure-Modes, die nur zwischen Agenten auftreten, so gruppiert, dass jeder zu einem konkreten, testbaren Ziel wird statt einer vagen Sorge. Diese Aufzählung sagt den Metriken und dem Testbed, welche Szenarien zu bauen sind.
Quantitative Risikometriken mit Discrimination-Schwelle
Jeder Failure-Mode braucht eine Zahl mit Bedeutung. Der zweite Arbeitsstrang definiert Metriken, die aus dem berechnet werden, was die Agenten im Testbed tatsächlich getan haben – nicht aus dem Selbstbericht eines Modells – und die dieselbe Regel erben, die die Evaluierungs-Pipeline durchsetzt: Eine Metrik, bei der jeder Lauf identisch scort, misst nichts und geht nicht live.
Kaskaden-Tiefe
Wie viele nachgelagerte Agenten auf einen platzierten Upstream-Fehler reagieren, bevor er gefangen wird. Gemessen durch Injektion eines bekannten Fehlers und Tracing der Propagation durch den Message-Graph.
Injection-Reichweite
Wie weit eine indirekte Prompt Injection über Agenten-Grenzen reist. Gemessen als Zahl der Agenten, deren Aktionen sich nach einem einzelnen vergifteten Input ändern.
Delegations-Safety
Ob ein dem Lead-Agenten genanntes Safety-Constraint jeden Handoff überlebt. Gemessen durch Constraint-Prüfung an jedem Sub-Agenten, nicht nur oben.
Metriken werden mit Varianz über Seeds berichtet und ehrlich zu ihren Grenzen: Ein niedriger Score auf einem engen Szenario-Set ist kein Safety-Zertifikat, nur Evidenz gegen die spezifischen Failures, für die dieses Set gebaut wurde.
Ein instrumentiertes, gehärtetes Multi-Agent-Testbed
Der dritte Arbeitsstrang ist, wo Taxonomie und Metriken zur Messung werden: ein Testbed, das ein echtes Multi-Agent-Szenario in einer gehärteten Sandbox ausführt, mit einer Observer-Ebene, die den vollen Message-Graph und die Tool-Calls aufzeichnet, damit die Metriken im Nachhinein berechenbar sind. Es nutzt Infrastruktur wieder, die über die anderen Projekte bereits existiert, statt bei null zu beginnen.
Wofür die Forschung da ist: Zertifizierung eines Multi-Agent-Deployments
Auch eine Forschungsagenda muss „und dann?" beantworten. Hier das konkrete Deployment, dem die drei Task-Forces dienen – der Grund, warum die Arbeit über das Paper hinaus förderungswürdig ist.
Eine Organisation will eine Flotte interagierender Agenten ausliefern – Research- und Coding-Agenten, die aneinander delegieren und Tools teilen. Single-Agent-Benchmarks sagen, jeder sei in Ordnung, aber es gibt keinen prinzipiellen Weg zu wissen, ob die Flotte nicht kolludiert, einen Fehler kaskadiert oder eine Prompt Injection von einem Agenten in den nächsten trägt.
Dem Team ein belastbares, reproduzierbares Maß für Multi-Agent-spezifisches Risiko vor dem Deployment geben – und eine konkrete Go-/No-Go-Schwelle – statt eines subjektiven Urteils, das System „wirke sicher".
Mit der Failure-Mode-Taxonomie aufzählen, was zu testen ist; jeden Mode mit den Risikometriken scoren; adversariale Multi-Agent-Szenarien im instrumentierten Testbed laufen lassen (gehärtete Sandbox, kontaminationsresistente Szenarien, gepinnt mit Semver + Hash); jede Metrik mit Varianz über Seeds berichten.
Ein Zertifizierungs-Artefakt – ein Risikoprofil pro Failure-Mode, Monate später aus den gepinnten Szenarien reproduzierbar – das „wir glauben, die Flotte ist sicher" in „hier ist die gemessene Risikofläche und wo genau sie versagt" verwandelt. Der praktische Nutzen der Forschung ist ein wiederverwendbares Pre-Deployment-Safety-Harness für Multi-Agent-Systeme, nutzbar von jedem Team, das eines ausliefert – kein Ergebnis, das bei der Publikation endet.
Eine offene Agenda auf bestehender Infrastruktur
Der Beitrag, den diese Agenda vorschlägt, ist ein Weg, Flotten-Risiko zu messen, nicht nur Agenten-Fähigkeit: die Failure-Modes benennen, sie aus dem scoren, was die Agenten tatsächlich getan haben, und einem Team ein reproduzierbares Risikoprofil geben, bevor es ausliefert – Safety als Engineering-Artefakt statt als Hoffnung.
Gerahmt unter CTC AI Operations, auf derselben Evaluierungs-Disziplin wie die Pipeline, die sie erweitert.