AI Strategy in Reality · Insight
Die Autonomiekosten: Warum vier Autonomiestufen vier verschiedene Business Cases produzieren
Vier Autonomiestufen erzeugen vier Kostenstrukturen. Die meisten Business Cases bepreisen nur die technologische Implementierung — deshalb wirken Piloten günstig und Scale-ups sprengen das Budget.
8 Min. Lesezeit
21. April 2026
HandsOn Insights
Der teuerste KI-Fehler in deutschen Unternehmen liegt derzeit in der Budgetierung von KI Initiativen. Unternehmen kaufen Autonomie, ohne sie realistisch zu bepreisen. Die Technologie-Rechnung zeigt meistens nur eine Kostendimension. Das Organisationssystem, das die neue Autonomie tragen muss — Governance, Monitoring, Verantwortung, Kompetenz — taucht im Business Case selten auf.
Die BCG-AI-Radar-Studie 2026, basierend auf einer Befragung von 2.400 Führungskräften, liefert die Zahlen. KI-Ausgaben sollen 2026 von 0,8% auf 1,7% des Umsatzes steigen — eine Verdopplung über de Status Quo. In demselben Datensatz wird gezeigt, dass 70% des KI-Werts aus Menschen und Prozessen und nur 10% aus den Algorithmen selbst entstehen. Wenn sich das Budget verdoppelt und sieben Zehntel der Wertschöpfung in der Organisation liegen, müssten die Organisationsinvestitionen theoretisch im Gleichschritt mitziehen. In den Unternehmen, mit denen wir arbeiten, tut sie das selten. Wir nennen diese Lücke die „Cost of Autonomy“ - und diese wird selten ernsthaft betrachtet.
Unternehmen kaufen Autonomie. Das Organisationssystem, das die Autonomie tragen muss, taucht im Business Case aber selten auf.
Technologie Kosten sind nicht gleich Gesamtkosten
Wenn ein CFO heute einen KI-Business-Case unterschreibt, enthält das Modell üblicherweise drei Zeilen: Lizenzen, Implementierung und ein großzügiges Einsparungspotenzial welches die Initiative auf dem dem eigentlichen Prozess verspricht. Was fehlt, sind die strukturellen Kosten, die entstehen, sobald das System live ist und die Autonomie tatsächlich übernimmt. Diese Kosten skalieren nicht-linear mit der Autonomiestufe, auf der das System läuft.
Ein System, das ausschließlich Empfehlungen ausspricht, ist einfach zu steuern, weil ein Mensch jede Entscheidung trifft. Ein System, das durchgehend innerhalb einer Policy operiert, ist teuer zu steuern, weil die Organisation eine Monitoring-, Eskalations- und Rekalibrierungsarchitektur vorhalten muss, die den EU-AI-Act-Standards zukünftig gerecht wird und operativ in die Organisation eingebettet ist. Artikel 14 EU AI Act ist in diesem Punkt sehr klar: Die menschliche Aufsicht muss einer Person zugewiesen sein, die über die erforderliche Kompetenz, Ausbildung und Befugnis verfügt, ein Hochrisiko-KI-System zu übersteuern oder zu stoppen. Diese Befugnis kostet FTEs, spezifisches Rollendesign, Ausbildungsstunden, Governance-Gremien und klare Berichtslinien. Meistens stehen keine dieser Posten im initialen Budget.
„Die menschliche Aufsicht wird einer natürlichen Person übertragen, die über die erforderliche Kompetenz, Ausbildung und Befugnis verfügt, um die Aufsicht über das Hochrisiko-KI-System wirksam auszuüben.“
— Artikel 14, EU AI Act · Verordnung (EU) 2024/1689
Das Fehlermuster ist vorhersehbar. Ein Pilot auf Stufe 1 liefert einen schmeichelhaft günstigen Proof Point. Der Business Case für die Skalierung übernimmt die Kostenstruktur des Piloten. Dann wird das System auf eine höhere Autonomiestufe gehoben — weil dort der tatsächliche ROI liegt — und die organisatorische Last kommt überraschend: als Vorfälle, gestoppte Rollouts und die CFO-Frage, die niemand beantworten kann: Warum liefert dieser Business Case nicht den erwarteten ROI? Um diese Frage vorab zu beantworten, braucht ihr ein Vokabular für Autonomie.
Vier Autonomiestufen, vier Kostenprofile
Das HandsOn AI Operating Model definiert das Human-AI Interface — die organisatorische Architektur für Entscheidungsfindung und Verantwortung, wenn Menschen und KI gemeinsam Verantwortung tragen — als das zentrale Designobjekt einer KI-gestützten Organisation. Das Interface drückt sich in einer von vier Autonomiestufen aus. Jeder KI-gestützte Entscheidungstyp im Unternehmen läuft auf genau einer davon.
Jede Stufe erzwingt eine andere Kostenstruktur. Der Fehler, den die meisten Organisationen machen: Sie bauen die technologische Infrastruktur für Stufe 3 und die Governance-Infrastruktur für Stufe 1 — und wundern sich dann, warum das nicht die gewünschten Ergebnisse liefert.
Stufe 2 ist das Risiko im Business Case
Stufe 1, 3 und 4 erzwingen Klarheit in der Organisation. Auf Stufe 1 gibt es keine Autonomie zu steuern. Stufe 3 und 4 sind offensichtlich autonom — ohne Stichprobengrößen, Monitoring-Schwellen, Kill-Switch und Eskalationspfad geht kein produktives System live. Das Risiko ist sichtbar, also wird die notwendige Designarbeit bereits im Business Case mitgedacht.
Stufe 2 stellt ein Risiko dar. Sie sieht aus wie eine „Human in the Loop“ Modell, weil formal ein Mensch beteiligt ist. In der Realität ist das Modell aber nur wirksam, wenn drei Voraussetzungen dokumentiert und eingehalten werden: Feste Prüfquote, definierter Umgang mit Ausnahmen und Befugnis, das Modell zu übersteuern oder neu zu trainieren im Falle von schlechten / falschen Ergebnissen. Sind diese Grundvoraussetzungen nicht gegeben, wird die Prüfung zum reinen Abnicken un erfüllt keinen echten Zweck. Dort entstehen die meisten KI-Vorfälle im Mittelstand — KI, die nominell und laut System von Menschen geprüft wird, denen aber Zeit, Fähigkeiten und Mandat fehlen, um dieser Aufgabe gewissenhaft nachzukommen. Frustrationen sind vorprogrammiert.
Artikel 14 EU AI Act behandelt dekorative Prüfung sowieso nicht als real. Kompetenz, Ausbildung und Befugnis sind der Maßstab, an dem die Aufsichtsbehörde messen wird — und eine Warteschlange markierter Fälle ohne Person mit Ablehnungsbefugnis erfüllt ihn nicht. Die Kostenfolge ist konkret. Auf Stufe 2 bezahlt eine Organisation drei parallele Systeme gleichzeitig: die KI-Ausführungsschicht, die menschliche Prüfschicht und das Interface, das beide verbindet.
Die Autonomiestufe, die wie der „logische nächste Schritt wirkt“ ist oft die teuerste, wenn sie nicht ernsthaft umgesetzt wird
Warum die Prüfarchitektur echt sein muss, nicht dekorativ
Zwei Dinge entscheiden, ob die Aufsicht auf Stufe 2 wirksam ist: die Befugnis & Ressourcen der prüfenden Person und der Umgang mit Ausnahmen. Beides sind organisatorische Variablen, keine technischen.
Befugnis heißt Entscheidungsrechte. Wenn die prüfende Person das Modell nicht übersteuern, kein Retraining anfordern oder das System nicht ohne dreistufige Eskalation aussetzen kann, wird die Prüfschleife zu einer Durchsatzfunktion, die Aufsicht nur simuliert. Das HandsOn Entscheidungsrechte-Register behandelt das als Designartefakt: Für jeden KI-gestützten Entscheidungstyp gibt es eine benannte Autorität, einen Evidenzstandard und einen Rekalibrierungsauslöser. Ein Unternehmen, das dieses Register für seine fünf wichtigsten KI-Anwendungsfälle nicht vorlegen kann, betreibt auf Stufe 2 eine Warteschlange mit Prüfetikett, keine belastbare Aufsicht.
Der Umgang mit Ausnahmen ist die zweite Variable. Ein Prüfgate, das 1% der Fälle markiert und für 100% Prüfung ausgestattet ist, ist teuer, aber funktional. Ein Prüfgate, das 20% der Fälle markiert und für 5% Prüfung ausgestattet ist, ist eine Compliance-Exposition — denn 15% der Outputs laufen ungeprüft durch, während die Organisation sich erzählt, ein Mensch sei im Prozess involviert.
McKinsey-Daten zum State of AI zeigen: Rund 80% der KI-einsetzenden Organisationen haben keinen einzigen Workflow um ihre KI-Einführung neu gestaltet. Das ist eine direkte Formulierung desselben Befunds: Die Prüfarchitektur existiert in Folien, nicht im Operating Model. Solange das so bleibt, tauchen die Autonomiekosten als Vorfälle, Nacharbeit und regulatorische Exposition auf — und nicht als Zeile im Business Case.
Wie ihr Autonomie bepreist, bevor ihr sie kauft
Die praktische Frage ist, was ein COO oder CFO tun kann, um die notwendigen Anpassungen vorzunehmen. Drei Entscheidungen machen aus den Autonomiekosten eine echte Zeile im Business Case und vermeiden nachträgliche Überraschungen.
Diese drei Entscheidungen liegen in der Entscheidungsmacht jedes Vorstands oder Executive Committees und können noch in diesem Quartal umgesetzt werden. Keine davon verlangt neue Tools.
Autonomiekosten sind planbar und keine Überraschung
Die Autonomiekosten entscheiden, ob euer KI-Portfolio den Business Case einlöst oder ihn sprengt. Vier Autonomiestufen; vier organisatorische Kostenstrukturen. Ein Pilot, der auf Stufe 1 bepreist und auf Stufe 2 oder 3 skaliert wird, ohne das Kostenmodell neu zu bauen, ist die häufigste Ursache für KI-Business-Cases, die auf Papier stark aussehen und in der Produktion scheitern.
Wer ein KI-Portfolio verantwortet: Nehmt die fünf größten Initiativen, klassifiziert jede nach Ziel-Autonomiestufe und bittet euren CFO, die Organisationslast je Stufe zu bewerten. Wer auf Vorstands- oder Aufsichtsratsebene sitzt: Bringt drei Entscheidungen auf die Agenda — Klassifizierung, Kosten der Organisationslast, Klassifizierungs-Governance. Keine davon braucht neue Technologie. Alle drei sind jetzt günstiger zu treffen als nach der ersten Implementierungsinitiative.
HandsOn · KI-Reifegrad-Bewertung
Auf welcher Autonomiestufe läuft euer nächster KI-Check?
Die HandsOn KI-Reifegrad-Bewertung kartiert euer KI-Portfolio entlang der vier Autonomiestufen — Klassifizierung, Bepreisung der Organisationslast und Klassifizierungs-Governance — und liefert eine vorstandsreife Sicht darauf, wo die Autonomiekosten in eurem Business Case heute nicht bepreist sind.
