Zum Hauptinhalt springen

Alle Artikel

KI-Pilot-Friedhof: warum 88% der KI-Pilots im DACH-Mittelstand nie produktiv werden (2026)

Gartner sagt 40% der Agentic-AI-Pilots scheitern bis 2027, MIT sagt 95% scheitern jetzt. Beide haben recht. Hier die echte Pilot-Funnel-Analyse.

Sebastian Lang9. Mai 20269 Min. Lesezeit

Gartner sagt 40% der Agentic-AI-Pilots scheitern bis 2027. Der MIT-NANDA-Report sagt 95% scheitern bereits. Beide haben recht, weil sie unterschiedliche Friedhoefe zaehlen, und im DACH-Mittelstand liegt deiner zwischen Excel-Liste und SharePoint-Ordner. Hier ist die echte Pilot-Funnel-Analyse, die wir aus rund 40 DACH-Workshops kennen.

Wir sehen jeden Monat Pilot-Listen von Geschaeftsfuehrern, die uns sagen "wir machen schon was mit KI". Was sie meinen: Sie haben Folien. Was wir sehen: vier verschiedene Arten, wie Pilots sterben, bevor sie jemals einen Euro verdienen oder sparen. Wenn du heute drei aktive KI-Pilots hast, ist die statistische Erwartung 2027, dass mindestens einer davon abgebrochen wird, einer nie produktiv geht und einer im One-Use-Case-Korridor bleibt. Mehr dazu, gleich, mit Zahlen.

Die 4 Friedhof-Typen auf einen Blick

TypZustandWas wirklich passiert
1Nicht-GestartetPilot-Beschluss in der Strategie-Folie, nie kickoff.
2Gestartet, nie fertigSprint 1 lief. Dann Quartalswechsel. Stakeholder weg.
3Fertig, nie produktivDemo war beeindruckend. Kein Owner fuer Production.
4Produktiv, nie skaliert1 Use-Case live, kein Folge-Use-Case identifiziert.

Pilot-Funnel: von 33 Pilot-Beschluessen erreichen 16 den Kickoff, 12 die Demo, 4 die Production, 1 die Skalierung

Aus rund 33 Pilot-Beschluessen, die wir in DACH-GF-Runden zaehlen, erreichen etwa 16 ueberhaupt einen echten Kickoff, 12 schaffen es zu einer Demo, 4 zur Production und nur 1 in eine zweite Skalierungs-Welle. Das ist die Realitaet, gegen die deine Strategy-Folie laeuft. Der Funnel ist nicht zufaellig, er ist hausgemacht. Jede Stufe hat ein eigenes, vermeidbares Anti-Pattern.

Friedhof-Typ 1: Nicht-Gestartet (warum etwa die Haelfte nie kickoff erreicht)

Das ist der lauteste und unsichtbarste Friedhof gleichzeitig. Lautest, weil "wir machen jetzt was mit KI" in jeder GF-Runde faellt. Unsichtbar, weil nie ein Ticket aufgemacht wird.

Das Anti-Pattern ist immer dasselbe: Die Geschaeftsfuehrung beschliesst auf einer Strategie-Klausur, dass "KI" jetzt Top-3-Prioritaet ist. Es gibt keinen Owner, kein Budget, keinen Timeline. Drei Monate spaeter steht der Beschluss noch in den Folien, aber niemand hat angefangen. Die Bitkom-KI-Studie 2025 zeigt das Muster numerisch: 41% der deutschen Unternehmen mit 20+ Mitarbeitern nutzen KI aktiv, und gleichzeitig sagen 47%, sie planen oder diskutieren Einsatz. "Planen oder diskutieren" ist der Friedhof-Typ-1-Indikator. Bei Mittelstaendlern unter 500 Mitarbeitern ist der Anteil noch hoeher, denn ueber 500 MA liegt die Adoption deutlich ueber 60%, das Lager dazwischen schiebt.

Was die Top-Performer anders machen: Ein Discovery-Workshop ist Phase 0, nicht der Pilot selbst. In einem halben Tag wird Owner nominiert, Budget-Ceiling fixiert, Stakeholder-Liste eingeschworen, drei bis fuenf Use-Cases priorisiert. Wenn du nach Phase 0 keinen Owner mit Vornamen, kein Budget mit Zahl und keinen Stichtag mit Datum hast, ist dein Pilot noch nicht gestartet, egal was die Strategie-Folie behauptet.

Wenn du nicht weisst, wo du anfangen sollst, ist der schnellste Hebel ein AI-Maturity-Check in 15 Minuten. Der zwingt dich, die offene Stelle "Owner" mit einem Namen zu fuellen, bevor du das naechste Quartal an Folien arbeitest.

Lessons aus Typ 1: Owner, Budget, Stichtag bis Ende Discovery-Workshop. Kein Owner heisst kein Pilot.

Friedhof-Typ 2: Gestartet aber nie fertiggestellt (Sprint-Drift)

Typ 2 ist der heimtueckischste, weil er aussieht wie Fortschritt. Es gibt ein Kanban-Board, ein Daily, einen Slack-Channel. Es gibt nur kein Ende.

Das Anti-Pattern: Ein 6-Wochen-Pilot ist nach 6 Monaten noch in Sprint 4. In Monat 2 kam ein Quartalswechsel, der Stakeholder im Vertrieb wurde reorganisiert. In Monat 3 kam ein neuer CIO. In Monat 4 wurde der Tech-Stack-Vendor in Frage gestellt. Jeder einzelne Punkt ist nachvollziehbar, in Summe killt er den Pilot. Der MIT-NANDA-Bericht 2025 sagt es brutal: 95% der GenAI-Pilots in Unternehmen liefern keinen messbaren P&L-Effekt. Die Hauptursache laut Studie ist nicht Modell-Qualitaet, sondern fehlende organisatorische Anbindung. Sprint-Drift ist die Mittelstands-Variante davon.

Was die 5%, die rauskommen, anders machen: Strikte Time-Boxing. Sechs Wochen sind sechs Wochen. Wenn der Stakeholder in Woche 3 wegfaellt, springt die Vertretung ein, die in der Stakeholder-Map auf Page 1 steht. Wenn das Ergebnis in Woche 6 nicht reicht, gibt es eine Stop-or-Continue-Entscheidung mit klaren Kriterien, nicht eine "wir verlaengern halt"-Schleife. Mehr Geld in einen schlecht eingerahmten Pilot zu schieben ist kein Mut, es ist Eskalations-Vermeidung. Das verbrennt Quartal um Quartal.

Wenn du wissen willst, wie ein durchgaengig durchstrukturierter Engineering-Plan aussieht, schau dir die 5-Phasen-Roadmap vom Pilot zur Produktion an. Die ist gegen genau dieses Driften gebaut.

Lessons aus Typ 2: Time-Boxing strikt, Stakeholder-Vertretung benannt, Stop-or-Continue mit Kriterien.

Friedhof-Typ 3: Fertig aber nie produktiv (Demo-Death)

Typ 3 ist der teuerste Friedhof, weil hier echtes Geld investiert wurde. Das System funktioniert. Die Demo ist beeindruckend. Die GF nickt, der CTO klatscht, der Vendor postet ein Case-Study-Stub auf LinkedIn. Vier Wochen spaeter: niemand benutzt es.

Das Anti-Pattern: Der Pilot war eine Tech-Demo, kein Production-Hand-off. Niemand hat in Woche 1 die Frage gestellt, wer Production-Owner wird, wer das Monitoring betreibt, welcher Run-Cost-Posten in welcher KST landet, wer Tickets bei Bugs aufmacht. Genau diese Stufe ist auch der Punkt, an dem Gartner ansetzt: Bis Ende 2027 werden ueber 40% der Agentic-AI-Projekte abgebrochen, treibend sind eskalierende Kosten, unklarer Business-Value und unzureichende Risiko-Kontrollen. McKinsey 2025 ergaenzt das auf der Skalierungs-Seite: Nur 23% der Unternehmen schaffen es, Agentic-AI-Systeme in mindestens einem Geschaeftsbereich zu skalieren, der grosse Rest sitzt in dem, was die Studie "Pilot-Purgatory" nennt. Demo-Death ist der DACH-Mittelstands-Subtyp.

Was die Top-Performer anders machen: Production-Owner sitzt in Woche 1 im Pilot-Team, nicht in Woche 6. Run-Cost wird auf Tag 1 modelliert, nicht nach der Demo. Die Architektur-Entscheidungen, die Pilots typischerweise fertig-aber-nicht-produktiv machen, haben wir in 5 Architekturfehler vom Pilot zur Production abgerechnet. Wenn du genau diesen Friedhof vor dir hast, ist das die Pflichtlektuere.

Ein zweiter Faktor: TCO. Wer Pilots ohne 12-Monats-TCO-Sicht startet, baut sich seinen Demo-Death selber. Wir haben das in TCO eines KI-Agenten ueber 12 Monate durchgerechnet, mit Run-Cost, Re-Training, Eval-Aufwand und Incident-Reserve. Ohne diese Zahlen wirst du in der Production-Hand-off-Diskussion immer der sein, der nachverhandeln muss.

Lessons aus Typ 3: Production-Owner ab Tag 1, TCO-Sicht ab Tag 1, Hand-off-Protokoll vor der Demo, nicht danach.

Friedhof-Typ 4: Produktiv aber nie skaliert (One-Use-Case-Trap)

Typ 4 ist der einsamste Friedhof, weil er sich anfuehlt wie Erfolg. Ein Use-Case ist live, eine Kennzahl bewegt sich, die Geschaeftsfuehrung erzaehlt es im Beirat. Dann passiert: nichts.

Das Anti-Pattern: Use-Case 1 lebt im Vertrieb, Use-Case 2 wurde nie identifiziert. Niemand hat die Use-Case-Pipeline aufgesetzt, niemand hat die naechsten drei Kandidaten in Customer-Support, Reporting oder HR vorqualifiziert. Das Plateau ist sofort. Der Mittelstaendler bleibt One-Use-Case-Held, waehrend der Wettbewerb in Welle 2 und 3 geht. McKinsey 2025 quantifiziert die Kollateralschaeden: Nur 31% der Unternehmen melden, KI in mindestens einem Geschaeftsbereich zu skalieren, ueber 60% sitzen in Experimentation oder Piloting fest. Die meisten davon haben einen produktiven Use-Case und keinen zweiten.

Was die Skalierer anders machen: Use-Case-Pipeline ist ab Pilot 1 mit definiert. Drei bis fuenf Kandidaten in einer priorisierten Liste, mit Owner und Reifegrad-Indikator. Sobald Pilot 1 in Production geht, startet die Discovery fuer Pilot 2 in der naechsten Woche, nicht im naechsten Quartal. Wenn du nicht weisst, wie eine solche Pipeline strukturiert aussieht, ist die 90-Tage-Use-Case-Matrix der schnellste Einstieg.

Lessons aus Typ 4: Use-Case-Pipeline ab Pilot 1 fuehren. Pilot 2 startet in Woche 1 nach Production-Go-Live, nicht im naechsten Quartal.

Was die Top 4% richtig machen (operativ konkret)

Wenn du dir die rund 4% von Pilots anschaust, die produktiv und skalierbar werden, sehen die operativen Muster ueberraschend unglamouroes aus.

Erstens: Owner mit Vornamen, ab Tag 1, mit dediziertem Zeitanteil. Nicht "die IT macht das mit", sondern "Anna macht das, 40%, fuer die naechsten zwoelf Wochen". Zweitens: 6-Wochen-Time-Box mit harter Stop-or-Continue-Entscheidung. Drittens: Production-Owner und Run-Cost-Modell ab Woche 1, nicht ab Demo. Viertens: Use-Case-Pipeline mit drei Folge-Kandidaten ist Teil des ersten Pilot-Setups. Fuenftens: Vendor-vs-Build-Entscheidung nicht ideologisch, sondern an MIT-NANDA-Daten orientiert. Der Bericht zeigt, dass zugekaufte oder partner-gestuetzte Loesungen rund doppelt so haeufig erfolgreich sind wie reine Internal-Builds.

Sechstens, und das ist der unterschaetzte Punkt: Es gibt eine ehrliche Liste an Use-Cases, die heute noch nicht in Produktion gehoeren. Wer sich in den naechsten zwoelf Wochen einen Demo-Death einfaengt, hat haeufig genau diesen Filter nicht laufen lassen. Die kompakte Variante der Liste steht in Was AI-Agents 2026 (noch) nicht koennen. Ein Pilot, der nicht in Produktion gehen darf, war nie ein Pilot, sondern ein Forschungs-Slot.

Wenn du eine technische Hintergrund-Sicht brauchst, warum Pilots haeufig genau in dem Moment scheitern, in dem sie produktiv werden sollen, lies den Crashkurs Was ist Agentic AI fuer Geschaeftsfuehrer parallel zu diesem Beitrag. Er klaert die Begriffe sauber, damit Pilot-Beschluesse nicht in der Definitionsfrage scheitern.

Und es lohnt sich, einen Schritt frueher anzusetzen. In 40% Agentic-AI-Projekte scheitern bis 2027 und die 7 Anti-Pattern haben wir die Vorboten der vier Friedhof-Typen aufgelistet. Wenn drei von sieben Anti-Pattern in deinem aktuellen Pilot stecken, hast du keine Pilot-Frage mehr, sondern eine Stop-or-Continue-Frage.

Decision-Tree: Ist dein aktueller Pilot lebensfaehig oder schon tot

Ein operativer Quick-Check, in fuenf Fragen, fuer jeden aktiven KI-Pilot:

  1. Gibt es einen Owner mit Vornamen, mit dediziertem Zeitanteil, der im Pilot-Team sitzt? Wenn nein, Friedhof-Typ 1 oder 2 lauert.
  2. Gibt es ein hartes Enddatum mit Stop-or-Continue-Kriterien, das in den naechsten acht Wochen liegt? Wenn nein, Sprint-Drift ist nahezu sicher.
  3. Ist der Production-Owner namentlich definiert und in den Sprint-Reviews dabei? Wenn nein, Demo-Death wartet.
  4. Gibt es ein 12-Monats-TCO-Modell, mit Run-Cost, Eval-Aufwand und Incident-Reserve? Wenn nein, der Hand-off wird scheitern.
  5. Liegt eine priorisierte Liste von drei bis fuenf Folge-Use-Cases mit Owner-Vornamen vor? Wenn nein, One-Use-Case-Trap ist programmiert.

Wenn du auf zwei oder mehr Fragen mit "nein" antwortest, ist dein Pilot statistisch tot, er hat es nur noch nicht gemerkt. Die ehrliche Reaktion ist eine 1-tages-Autopsie, kein weiteres Sprint-Verlaengerungs-Manoever.

Bevor du den naechsten Pilot startest, lohnt sich ein nuechterner Blick auf die 5 Glaubenssaetze, die KI-Adoption blockieren. Drei der vier Friedhof-Typen aus diesem Beitrag haben ihre Wurzel nicht in der Technik, sondern in der Geschaeftsfuehrung.

FAQ

Wie lange darf ein Pilot maximal dauern, bevor man ihn fuer tot erklaert? Sechs Wochen ist die Regel, acht Wochen die absolute Obergrenze. Alles darueber ist Sprint-Drift im Re-Branding. Wenn das Ergebnis in acht Wochen nicht reicht, war der Pilot falsch eingerahmt, nicht zu kurz.

Wir haben einen Pilot in Sprint 7, abbrechen oder durchziehen? Stop-or-Continue mit klaren Kriterien jetzt. Wenn 80% der Lessons schon klar sind, beenden und dokumentieren. Wenn weniger, einmal harten Reframe mit Owner und Stakeholder, vier Wochen Frist, dann finale Entscheidung. Kein drittes "wir verlaengern halt" mehr.

Wer ist der richtige Production-Owner? Eine fachliche Person aus dem Bereich, der den Use-Case nutzen wird, mit dedizierter Zeit und Pflicht zur Run-Cost-Verantwortung. Nicht der CTO, nicht der CIO, nicht "die IT". Beide letzten sind Eskalations-Adressen, keine Owner.

Wir haben einen produktiven Pilot, brauchen wir wirklich schon Use-Case 2? Ja, denn ohne Use-Case 2 in der Pipeline beginnt das Plateau in Woche 1 nach Go-Live. Use-Case 2 darf kleiner sein, er muss nur sichtbar in der Pipeline stehen, mit Owner-Vornamen.

Quellen und naechster Schritt

Daten und Studien hinter den Aussagen:

  • Gartner Press Release 2025-06-25: "Over 40% of Agentic AI Projects Will Be Canceled by End of 2027" (eskalierende Kosten, unklarer Business-Value, unzureichende Risiko-Kontrollen).
  • MIT NANDA, "The GenAI Divide: State of AI in Business 2025" (95% der GenAI-Pilots ohne messbaren P&L-Effekt, Vendor-Wins doppelt so haeufig wie Internal-Builds).
  • McKinsey, "The State of AI" 2025 (88% Adoption, nur 23% skalieren Agentic-AI in mindestens einem Geschaeftsbereich, "Pilot-Purgatory").
  • Bitkom KI-Studie 2025/2026 (41% Adoption ab 20 MA, ueber 60% bei 500+ MA, Mittelstand holt nach).
  • Eigene Sentient-Dynamics-Workshops mit DACH-Mittelstaendlern, 2024 bis 2026.

Wir machen einen Pilot-Autopsie-Workshop fuer deine letzten 3 KI-Pilots, damit der naechste produktiv wird. 1 Tag, Termin buchen.

Über den Autor

Sebastian Lang

Co-Founder · Business & Content Lead

Co-Founder von Sentient Dynamics. 15+ Jahre Business-Strategie (u.a. SAP), MBA. Schreibt über AI-Act-Compliance, ROI-Messung und wie Mittelstand-CTOs agentische KI tatsächlich einführen.

Weiterlesen

Einmal im Monat. Nur Substanz.

Keine Motivationssprüche. Keine Tool-Listen. Nur was CTOs, COOs und Geschäftsführer in DACH über KI-Adoption wirklich wissen müssen.