AI Strategy in Reality · Insight

Die Autonomiekosten: Warum vier Autonomiestufen vier verschiedene Business Cases produzieren

Vier Autonomiestufen erzeugen vier Kostenstrukturen. Die meisten Business Cases bepreisen nur die technologische Implementierung — deshalb wirken Piloten günstig und Scale-ups sprengen das Budget.

8 Min. Lesezeit

21. April 2026

HandsOn Insights

Der teuerste KI-Fehler in deutschen Unternehmen liegt derzeit in der Budgetierung von KI Initiativen. Unternehmen kaufen Autonomie, ohne sie realistisch zu bepreisen. Die Technologie-Rechnung zeigt meistens nur eine Kostendimension. Das Organisationssystem, das die neue Autonomie tragen muss — Governance, Monitoring, Verantwortung, Kompetenz — taucht im Business Case selten auf.

Die BCG-AI-Radar-Studie 2026, basierend auf einer Befragung von 2.400 Führungskräften, liefert die Zahlen. KI-Ausgaben sollen 2026 von 0,8% auf 1,7% des Umsatzes steigen — eine Verdopplung über de Status Quo. In demselben Datensatz wird gezeigt, dass 70% des KI-Werts aus Menschen und Prozessen und nur 10% aus den Algorithmen selbst entstehen. Wenn sich das Budget verdoppelt und sieben Zehntel der Wertschöpfung in der Organisation liegen, müssten die Organisationsinvestitionen theoretisch im Gleichschritt mitziehen. In den Unternehmen, mit denen wir arbeiten, tut sie das selten. Wir nennen diese Lücke die „Cost of Autonomy“ - und diese wird selten ernsthaft betrachtet.

Unternehmen kaufen Autonomie. Das Organisationssystem, das die Autonomie tragen muss, taucht im Business Case aber selten auf.

Technologie Kosten sind nicht gleich Gesamtkosten

Wenn ein CFO heute einen KI-Business-Case unterschreibt, enthält das Modell üblicherweise drei Zeilen: Lizenzen, Implementierung und ein großzügiges Einsparungspotenzial welches die Initiative auf dem dem eigentlichen Prozess verspricht. Was fehlt, sind die strukturellen Kosten, die entstehen, sobald das System live ist und die Autonomie tatsächlich übernimmt. Diese Kosten skalieren nicht-linear mit der Autonomiestufe, auf der das System läuft.

BCG AI Radar 2026 · 2.400 Führungskräfte

70% / 10%

70% des KI-Werts entstehen aus Menschen und Prozessen. Nur 10% aus den Algorithmen. KI-Ausgaben verdoppeln sich 2026 von 0,8% auf 1,7% des Umsatzes — und die Organisationsinvestition muss im Gleichschritt mitziehen.

Ein System, das ausschließlich Empfehlungen ausspricht, ist einfach zu steuern, weil ein Mensch jede Entscheidung trifft. Ein System, das durchgehend innerhalb einer Policy operiert, ist teuer zu steuern, weil die Organisation eine Monitoring-, Eskalations- und Rekalibrierungsarchitektur vorhalten muss, die den EU-AI-Act-Standards zukünftig gerecht wird und operativ in die Organisation eingebettet ist. Artikel 14 EU AI Act ist in diesem Punkt sehr klar: Die menschliche Aufsicht muss einer Person zugewiesen sein, die über die erforderliche Kompetenz, Ausbildung und Befugnis verfügt, ein Hochrisiko-KI-System zu übersteuern oder zu stoppen. Diese Befugnis kostet FTEs, spezifisches Rollendesign, Ausbildungsstunden, Governance-Gremien und klare Berichtslinien. Meistens stehen keine dieser Posten im initialen Budget.

„Die menschliche Aufsicht wird einer natürlichen Person übertragen, die über die erforderliche Kompetenz, Ausbildung und Befugnis verfügt, um die Aufsicht über das Hochrisiko-KI-System wirksam auszuüben.“

— Artikel 14, EU AI Act · Verordnung (EU) 2024/1689

Das Fehlermuster ist vorhersehbar. Ein Pilot auf Stufe 1 liefert einen schmeichelhaft günstigen Proof Point. Der Business Case für die Skalierung übernimmt die Kostenstruktur des Piloten. Dann wird das System auf eine höhere Autonomiestufe gehoben — weil dort der tatsächliche ROI liegt — und die organisatorische Last kommt überraschend: als Vorfälle, gestoppte Rollouts und die CFO-Frage, die niemand beantworten kann: Warum liefert dieser Business Case nicht den erwarteten ROI? Um diese Frage vorab zu beantworten, braucht ihr ein Vokabular für Autonomie.

Vier Autonomiestufen, vier Kostenprofile

Das HandsOn AI Operating Model definiert das Human-AI Interface — die organisatorische Architektur für Entscheidungsfindung und Verantwortung, wenn Menschen und KI gemeinsam Verantwortung tragen — als das zentrale Designobjekt einer KI-gestützten Organisation. Das Interface drückt sich in einer von vier Autonomiestufen aus. Jeder KI-gestützte Entscheidungstyp im Unternehmen läuft auf genau einer davon.

Stufe 1 · Grundlage

Human-in-the-Loop

KI empfiehlt; ein Mensch gibt jeden Output frei. Per Design sicher. Governance-Last gering, Kompetenzlast moderat, Monitoring vernachlässigbar. In hochvolumigen Prozessen nicht skalierbar.

Stufe 2 · Grundlage

KI entscheidet, Mensch prüft

KI führt innerhalb eines definierten Rahmens aus; ein Mensch prüft Stichproben und bearbeitet Ausnahmen. Wirkt auf dem Papier am günstigsten. Trägt die höchsten versteckten Kosten im Modell.

Stufe 3 · Aktivierung

KI entscheidet, Mensch wird informiert

KI läuft durchgehend innerhalb dokumentierter Policy-Grenzen. Menschen überwachen auf Systemebene. Benannte Verantwortung (KI-Owner, KI-Steward, Übersteuerungsbefugnis) wird tragend.

Stufe 4 · Aktivierung

Human-in-the-Exception

KI orchestriert mehrstufige Workflows. Menschen setzen Ziele; greifen nur bei Ausnahmen ein. Schwerste Governance-Last. EU-AI-Act-Dokumentationspflichten skalieren hier.

Jede Stufe erzwingt eine andere Kostenstruktur. Der Fehler, den die meisten Organisationen machen: Sie bauen die technologische Infrastruktur für Stufe 3 und die Governance-Infrastruktur für Stufe 1 — und wundern sich dann, warum das nicht die gewünschten Ergebnisse liefert.

Stufe 2 ist das Risiko im Business Case

Stufe 1, 3 und 4 erzwingen Klarheit in der Organisation. Auf Stufe 1 gibt es keine Autonomie zu steuern. Stufe 3 und 4 sind offensichtlich autonom — ohne Stichprobengrößen, Monitoring-Schwellen, Kill-Switch und Eskalationspfad geht kein produktives System live. Das Risiko ist sichtbar, also wird die notwendige Designarbeit bereits im Business Case mitgedacht.

Stufe 2 stellt ein Risiko dar. Sie sieht aus wie eine „Human in the Loop“ Modell, weil formal ein Mensch beteiligt ist. In der Realität ist das Modell aber nur wirksam, wenn drei Voraussetzungen dokumentiert und eingehalten werden: Feste Prüfquote, definierter Umgang mit Ausnahmen und Befugnis, das Modell zu übersteuern oder neu zu trainieren im Falle von schlechten / falschen Ergebnissen. Sind diese Grundvoraussetzungen nicht gegeben, wird die Prüfung zum reinen Abnicken un erfüllt keinen echten Zweck. Dort entstehen die meisten KI-Vorfälle im Mittelstand — KI, die nominell und laut System von Menschen geprüft wird, denen aber Zeit, Fähigkeiten und Mandat fehlen, um dieser Aufgabe gewissenhaft nachzukommen. Frustrationen sind vorprogrammiert.

Deloitte Human Capital · 2025

62% / 5%

62% der Führungskräfte sagen, KI beeinflusst bereits die Mehrheit ihrer Entscheidungen. Nur 5% berichten von echtem Fortschritt bei der Governance dieser Entscheidungen. Die Lücke liegt fast vollständig auf Stufe 2 — der Zone, die Organisationen für sicher halten, weil jemand formal den Output prüft.

Artikel 14 EU AI Act behandelt dekorative Prüfung sowieso nicht als real. Kompetenz, Ausbildung und Befugnis sind der Maßstab, an dem die Aufsichtsbehörde messen wird — und eine Warteschlange markierter Fälle ohne Person mit Ablehnungsbefugnis erfüllt ihn nicht. Die Kostenfolge ist konkret. Auf Stufe 2 bezahlt eine Organisation drei parallele Systeme gleichzeitig: die KI-Ausführungsschicht, die menschliche Prüfschicht und das Interface, das beide verbindet.

Die Autonomiestufe, die wie der „logische nächste Schritt wirkt“ ist oft die teuerste, wenn sie nicht ernsthaft umgesetzt wird

Warum die Prüfarchitektur echt sein muss, nicht dekorativ

Zwei Dinge entscheiden, ob die Aufsicht auf Stufe 2 wirksam ist: die Befugnis & Ressourcen der prüfenden Person und der Umgang mit Ausnahmen. Beides sind organisatorische Variablen, keine technischen.

Befugnis heißt Entscheidungsrechte. Wenn die prüfende Person das Modell nicht übersteuern, kein Retraining anfordern oder das System nicht ohne dreistufige Eskalation aussetzen kann, wird die Prüfschleife zu einer Durchsatzfunktion, die Aufsicht nur simuliert. Das HandsOn Entscheidungsrechte-Register behandelt das als Designartefakt: Für jeden KI-gestützten Entscheidungstyp gibt es eine benannte Autorität, einen Evidenzstandard und einen Rekalibrierungsauslöser. Ein Unternehmen, das dieses Register für seine fünf wichtigsten KI-Anwendungsfälle nicht vorlegen kann, betreibt auf Stufe 2 eine Warteschlange mit Prüfetikett, keine belastbare Aufsicht.

Der Umgang mit Ausnahmen ist die zweite Variable. Ein Prüfgate, das 1% der Fälle markiert und für 100% Prüfung ausgestattet ist, ist teuer, aber funktional. Ein Prüfgate, das 20% der Fälle markiert und für 5% Prüfung ausgestattet ist, ist eine Compliance-Exposition — denn 15% der Outputs laufen ungeprüft durch, während die Organisation sich erzählt, ein Mensch sei im Prozess involviert.

McKinsey-Daten zum State of AI zeigen: Rund 80% der KI-einsetzenden Organisationen haben keinen einzigen Workflow um ihre KI-Einführung neu gestaltet. Das ist eine direkte Formulierung desselben Befunds: Die Prüfarchitektur existiert in Folien, nicht im Operating Model. Solange das so bleibt, tauchen die Autonomiekosten als Vorfälle, Nacharbeit und regulatorische Exposition auf — und nicht als Zeile im Business Case.

Wie ihr Autonomie bepreist, bevor ihr sie kauft

Die praktische Frage ist, was ein COO oder CFO tun kann, um die notwendigen Anpassungen vorzunehmen. Drei Entscheidungen machen aus den Autonomiekosten eine echte Zeile im Business Case und vermeiden nachträgliche Überraschungen.

Entscheidung 1

Jedes KI-System nach Ziel-Autonomiestufe klassifizieren

Nicht die Stufe, auf der es heute läuft. Die Stufe, die der Business Case braucht. Ein Forecast-System mit menschlicher Freigabe pro Output ist Stufe 1; wenn der ROI davon abhängt, 10.000 Outputs pro Woche freizugeben, ist das reale Ziel Stufe 2 oder 3. Allein diese Übung fördert 5–15 Systeme pro mittelständischem Unternehmen zutage, die auf einer Stufe geplant und auf einer anderen budgetiert sind.

Entscheidung 2

Die Organisationslast je Stufe bepreisen

Für jede Zielstufe Governance-, Monitoring-, Kompetenz- und Verantwortungskosten als explizite Zeilen schätzen. Prüf-Köpfe auf Stufe 2, Dashboard- und Drift-Tooling auf Stufe 3, Ausnahme-Engineering auf Stufe 4. Ausbildungsprogramme, kalibriert auf die Zielstufe — nicht generische KI-Literacy. Die Übung zwingt das Gespräch aus dem Compute-Budget heraus und in das Betriebskostenbudget, wo die echten Kosten liegen.

Entscheidung 3

Klassifizierungs-Governance installieren

Wer ist berechtigt, ein System von einer Autonomiestufe in die nächste zu heben, und unter welchem Evidenzstandard? Der am häufigsten übersprungene Schritt — und der Punkt, an dem sich die meiste regulatorische Exposition aufbaut. Eine Seite reicht meist — aber sie muss eine Autorität, eine Evidenzschwelle und eine Kadenz benennen.

Diese drei Entscheidungen liegen in der Entscheidungsmacht jedes Vorstands oder Executive Committees und können noch in diesem Quartal umgesetzt werden. Keine davon verlangt neue Tools.

Autonomiekosten sind planbar und keine Überraschung

Die Autonomiekosten entscheiden, ob euer KI-Portfolio den Business Case einlöst oder ihn sprengt. Vier Autonomiestufen; vier organisatorische Kostenstrukturen. Ein Pilot, der auf Stufe 1 bepreist und auf Stufe 2 oder 3 skaliert wird, ohne das Kostenmodell neu zu bauen, ist die häufigste Ursache für KI-Business-Cases, die auf Papier stark aussehen und in der Produktion scheitern.

Wer ein KI-Portfolio verantwortet: Nehmt die fünf größten Initiativen, klassifiziert jede nach Ziel-Autonomiestufe und bittet euren CFO, die Organisationslast je Stufe zu bewerten. Wer auf Vorstands- oder Aufsichtsratsebene sitzt: Bringt drei Entscheidungen auf die Agenda — Klassifizierung, Kosten der Organisationslast, Klassifizierungs-Governance. Keine davon braucht neue Technologie. Alle drei sind jetzt günstiger zu treffen als nach der ersten Implementierungsinitiative.

HandsOn · KI-Reifegrad-Bewertung

Auf welcher Autonomiestufe läuft euer nächster KI-Check?

Die HandsOn KI-Reifegrad-Bewertung kartiert euer KI-Portfolio entlang der vier Autonomiestufen — Klassifizierung, Bepreisung der Organisationslast und Klassifizierungs-Governance — und liefert eine vorstandsreife Sicht darauf, wo die Autonomiekosten in eurem Business Case heute nicht bepreist sind.

Assessment starten →

Termin buchen

AI Strategy in Reality · Insight

Die Autonomiekosten: Warum vier Autonomiestufen vier verschiedene Business Cases produzieren

Vier Autonomiestufen erzeugen vier Kostenstrukturen. Die meisten Business Cases bepreisen nur die technologische Implementierung — deshalb wirken Piloten günstig und Scale-ups sprengen das Budget.

8 Min. Lesezeit

21. April 2026

HandsOn Insights

Unternehmen kaufen Autonomie. Das Organisationssystem, das die Autonomie tragen muss, taucht im Business Case aber selten auf.

Technologie Kosten sind nicht gleich Gesamtkosten

Vier Autonomiestufen, vier Kostenprofile

Stufe 2 ist das Risiko im Business Case

Die Autonomiestufe, die wie der „logische nächste Schritt wirkt“ ist oft die teuerste, wenn sie nicht ernsthaft umgesetzt wird

Warum die Prüfarchitektur echt sein muss, nicht dekorativ

Wie ihr Autonomie bepreist, bevor ihr sie kauft

Autonomiekosten sind planbar und keine Überraschung

HandsOn · KI-Reifegrad-Bewertung

Auf welcher Autonomiestufe läuft euer nächster KI-Check?

AI Index 2026 - Was stanford misst und was nicht

Train the Monkey First: Das KI Betriebsmodell

NIST AI RMF: Der blinde Fleck des Mittelstands

Das AI-Framework-Paradox: Zehn Standards, eine Lücke

Vom Operating Model zum KI Operating Model

AI Strategy in Reality · Insight

Die Autonomiekosten: Warum vier Autonomiestufen vier verschiedene Business Cases produzieren

Vier Autonomiestufen erzeugen vier Kostenstrukturen. Die meisten Business Cases bepreisen nur die technologische Implementierung — deshalb wirken Piloten günstig und Scale-ups sprengen das Budget.

8 Min. Lesezeit

21. April 2026

HandsOn Insights

Unternehmen kaufen Autonomie. Das Organisationssystem, das die Autonomie tragen muss, taucht im Business Case aber selten auf.

Technologie Kosten sind nicht gleich Gesamtkosten

Vier Autonomiestufen, vier Kostenprofile

Stufe 2 ist das Risiko im Business Case

Die Autonomiestufe, die wie der „logische nächste Schritt wirkt“ ist oft die teuerste, wenn sie nicht ernsthaft umgesetzt wird

Warum die Prüfarchitektur echt sein muss, nicht dekorativ

Wie ihr Autonomie bepreist, bevor ihr sie kauft

Autonomiekosten sind planbar und keine Überraschung

HandsOn · KI-Reifegrad-Bewertung

Auf welcher Autonomiestufe läuft euer nächster KI-Check?

Ähnliche Beiträge