Digitale Strategie

Anthropic gibt Claude Code einen Sicherheitsautopiloten

Kai Namyslo02. April 20262 min Lesezeit

Was steckt dahinter?

Auto Mode lässt Claude Code eigenständig arbeiten — Dateien ändern, Shell-Befehle ausführen, Abhängigkeiten installieren. Aber: Ein zweites KI-Modell (Claude Sonnet 4.6) prüft jede Aktion, bevor sie ausgeführt wird. Ein Sicherheitsautopilot, wenn man so will.

Das Ganze funktioniert in zwei Stufen. Stufe 1 ist ein schneller Ja/Nein-Filter. Sieht harmlos aus? Durchgewunken. Sieht verdächtig aus? Weiter zu Stufe 2 — einer ausführlichen Analyse mit Chain-of-Thought-Reasoning.

Der Clou: Der Classifier sieht bewusst nicht, wie Claude seine Aktionen begründet. Er bewertet nur die Aktion selbst. Das verhindert, dass sich ein fehllaufendes Modell mit überzeugender Argumentation durch die Kontrolle redet.

Was wird geblockt?

Die Default-Regeln zielen auf alles, was irreversibel oder gefährlich ist:

Force-Pushes und Massendateilöschungen
Sicherheitsmechanismen deaktivieren
Produktions-Deployments ohne Freigabe
Sensible Daten an externe Endpunkte senden
Unbekannte Skripte herunterladen und ausführen

Nach drei blockierten Aktionen in Folge oder zwanzig Blocks insgesamt wird auf manuelle Freigabe eskaliert.

Warum das relevant ist

Der Zeitpunkt ist kein Zufall. Erst kürzlich hat ein KI-Tool bei Amazon angeblich eine komplette Hosting-Umgebung gelöscht — 13 Stunden Ausfall. Solche Vorfälle zeigen: KI-Agenten brauchen Leitplanken. Nicht theoretisch, sondern jetzt.

Anthropic sagt selbst: Auto Mode ersetzt keine sorgfältige menschliche Prüfung bei kritischer Infrastruktur. Es reduziert Risiko, eliminiert es aber nicht.

Für Teams, die KI-Agenten produktiv einsetzen wollen, ohne den Sicherheitsaspekt zu opfern, ist das ein konkreter Schritt nach vorne. Nicht perfekt, aber pragmatisch.

Und manchmal ist pragmatisch genau das Richtige.

Alle Artikel