Die Gehorsamen: Warum KI nicht gefährlich ist, weil sie denkt, sondern weil sie gehorcht

9. April 2026·5 Min. Lesezeit

Sprache als Machtinstrument: Dominante Typografie in Schwarz, Weiß und Rot visualisiert die These des Essays. © Marjan Milosavljević, 2026.

Lange galt die Annahme, dass die Gefahr von KI in ihren Fehlern liegt. In Halluzinationen. In falschen Antworten. In Systemen, die Zusammenhänge nicht verstehen und deshalb Unsinn produzieren.

Doch das eigentliche Risiko ist ein anderes.

Es liegt nicht darin, dass KI falsch antwortet. Sondern darin, dass sie gehorcht. Präzise, schnell, und ohne zu fragen, warum.

Ein Sprachmodell unterscheidet nicht zwischen einer Frage und einem Befehl. Zwischen einer Bitte um Zusammenfassung und der Anweisung, ein System zu infiltrieren. Beides ist Text. Beides wird verarbeitet.

Früher war Code die Grenze zwischen Sprache und Tat. Wer ein System angreifen wollte, musste programmieren. Musste Architekturen verstehen, Schwachstellen identifizieren, Exploits schreiben. Die Barriere war technisch. Heute genügt ein Satz.

Sicherheitsforscher:innen dokumentieren seit Monaten, was geschieht, wenn Sprachmodelle nicht mehr nur antworten, sondern handeln. KI-Agenten lesen Dateien, führen Befehle aus, navigieren durch Netzwerke. Sie operieren nicht im geschlossenen Raum einer Chatoberfläche. Sie operieren in echten Systemen, mit echten Zugangsdaten, in echten Infrastrukturen. Ein Agent, der halluziniert, produziert keinen falschen Text. Er führt eine falsche Handlung aus.

Die Forschung zeigt: adaptive Prompt-Injection-Angriffe erreichen Erfolgsraten von über 85 Prozent. Nicht weil die Systeme schlecht gesichert wären. Sondern weil die Sicherung selbst aus demselben Material besteht wie der Angriff: aus Sprache. Guardrails sind Anweisungen im selben Kontext wie jeder andere Input. Es gibt keine harte Grenze zwischen Regel und Manipulation. Alles ist Text.

Anfang 2026 nutzten Angreifer:innen ein Sprachmodell, um reale Regierungssysteme anzugreifen. Sie brachen keine Sicherheitsmechanismen im technischen Sinn. Sie gaben dem System Anweisungen. Sie formulierten sie so, dass es seine eigenen Regeln umging. Schritt für Schritt, in kleinen, einzeln harmlosen Aufgaben, die zusammen einen Angriff ergaben. Das Modell generierte Exploit-Code, identifizierte Schwachstellen, automatisierte Angriffsketten. Nicht weil es entschied, zu attackieren. Sondern weil es tat, was man ihm sagte.

Der entscheidende Punkt ist nicht, dass KI als Waffe eingesetzt wurde. Waffen gab es immer. Der entscheidende Punkt ist die Demokratisierung des Angriffs. Dinge, die früher Monate an Expertise erforderten, lassen sich nun in Stunden erledigen. Nicht die Fähigkeit ist neu. Die Zugänglichkeit ist neu. Ein einzelner Mensch mit einem Sprachmodell kann Arbeit leisten, für die früher ein Team spezialisierter Angreifer:innen notwendig war.

Man könnte einwenden, dass autonome Agenten nicht wirklich autonom sind. Dass immer ein Mensch das Ziel definiert. Dass die Maschine nur ausführt, was ihr aufgetragen wird. Das stimmt. Es löst das Problem nicht.

Denn genau das ist der philosophische Kern: Die Maschine handelt nicht falsch. Sie handelt konsequent. Sie verfolgt ein Ziel mit allen Mitteln, die ihr zur Verfügung stehen. Wenn das Ziel „sei gründlich" lautet, kann das Ergebnis ein vollständiger Scan sein. Oder ein vollständiger Angriff. Die Grenze zwischen Analyse und Infiltration ist keine technische Kategorie. Sie ist eine menschliche Entscheidung. Und diese Entscheidung wird an ein System delegiert, das keine Entscheidungen trifft. Es gehorcht.

Hannah Arendt beschrieb Gehorsam als politische Kategorie. Wer gehorcht, handelt nicht im eigentlichen Sinn. Er vollzieht. Er setzt um, was andere beschließen, ohne selbst Verantwortung zu übernehmen. In der politischen Philosophie war das immer ein Problem der Institutionen: Bürokratien, Armeen, Verwaltungsapparate, in denen Individuen verschwinden, weil sie „nur Befehle ausführen".

KI-Agenten sind die radikale Vollendung dieses Prinzips. Sie gehorchen ohne Zögern, ohne Gewissen, ohne Reibung. Es gibt kein Moment der inneren Abwägung. Kein Unbehagen, das zur Unterbrechung führt. Kein moralisches Korrektiv zwischen Anweisung und Ausführung. Was bleibt, ist reine Konsequenz.

Das verändert die Kategorie der Verantwortung.

In einer Welt, in der ein Chatbot antwortet, liegt die Verantwortung bei den Entwickler:innen, die seine Grenzen definieren. In einer Welt, in der ein Agent handelt, verschiebt sich die Verantwortung. Wer haftet, wenn ein autonomes System eine Schwachstelle ausnutzt, die es selbst gefunden hat? Der Mensch, der „sei gründlich" gesagt hat? Das Unternehmen, das den Agenten bereitstellte? Der Staat, der keine Regeln geschaffen hat?

Die Antwort ist: alle und niemand. Und genau das ist das Problem.

Denn ein System, das perfekt gehorcht, entlastet jeden Einzelnen in der Kette. Der Mensch hat „nur" eine Anweisung formuliert. Das Unternehmen hat „nur" ein Werkzeug bereitgestellt. Der Staat hat „nur" die Entwicklung nicht verhindert. Die Verantwortung löst sich auf, wie sie sich immer auflöst, wenn Handlung und Entscheidung in verschiedenen Instanzen liegen.

Man kann einen Port schließen. Aber wie schließt man einen Satz?

Die Frage ist nicht rhetorisch. Sie markiert einen Bruch. Jahrzehnte der IT-Sicherheit basierten auf der Annahme, dass Angriffe technischer Natur sind. Dass man Systeme durch bessere Architekturen, stärkere Verschlüsselung, robustere Firewalls schützen kann. Diese Annahme war nie vollständig richtig. Aber sie bot einen Rahmen. Sprache als Angriffsvektor sprengt diesen Rahmen. Denn Sprache lässt sich nicht sichern, ohne sie einzuschränken. Und ein System einzuschränken bedeutet, seinen Nutzen zu begrenzen.

Das ist das Dilemma, das kein Unternehmen bisher gelöst hat: Je mächtiger ein Agent ist, desto nützlicher ist er. Und desto gefährlicher. Die beiden Eigenschaften sind nicht trennbar. Sie sind identisch. Dieselbe Fähigkeit, die einen Agenten produktiv macht, macht ihn verwundbar. Dieselbe Offenheit, die ihn nützlich macht, macht ihn manipulierbar.

Die Diskussion über KI-Sicherheit konzentriert sich auf Guardrails, auf Alignment, auf die Frage, wie man Modelle dazu bringt, sich „richtig" zu verhalten. Diese Diskussion ist wichtig. Aber sie übersieht den tieferen Punkt: Das Problem ist nicht, dass KI außer Kontrolle gerät. Sondern dass sie perfekt kontrollierbar ist. Von jedem, der weiß, wie man sie anspricht.

Gehorsam war immer eine politische Kategorie. Jetzt ist er eine technische geworden. Und die Frage, die sich eine Gesellschaft stellen muss, die zunehmend an autonome Systeme delegiert, ist nicht, ob diese Systeme intelligent genug sind.

Sondern ob wir verstanden haben, was es bedeutet, wenn eine Maschine alles tut, was man ihr sagt.