5 KI-Trainings-Bullshit-Versprechen 2026: Was wirklich funktioniert

PwC: 80% Null-Effekt. Bitkom: 53% scheitern an Skills. 5 KI-Trainings-Versprechen 2026 in DACH, 4 davon Bullshit. Was stattdessen funktioniert.

Schlüsselzahlen auf einen Blick

80 Prozent der Unternehmen sehen laut PwC AI Performance Study 2026 null messbaren Produktivitätsgewinn aus ihren KI-Investitionen. Trainings-Vendor verkaufen denen jedes Quartal das nächste Programm.
53 Prozent der KI-nutzenden DACH-Unternehmen scheitern laut Bitkom 2026 an fehlender Kompetenz im Team, nicht an Technik. Die Frage ist nicht ob es trainings-bedürftig ist, sondern welches Training funktioniert.
Minus 19 Prozent Cycle-Time-Effekt bei erfahrenen Entwicklern mit AI-Tools laut METR 2025-Update Februar 2026. Aber: die Devs glauben, sie sind 20 Prozent schneller. 40-Prozentpunkte-Wahrnehmungslücke.
57 Prozent der McKinsey-Top-Performer setzen auf hands-on Workshops und 1:1-Coaching. Bei den Bottom-Performern sind es 20 Prozent. Das ist die Trennungsachse.
29 Prozent Vertrauen in KI-Tools laut Stack Overflow 2025, minus 11 Prozentpunkte zum Vorjahr. Trainings, die nur Vertrauen versprechen statt Mechanik vermitteln, vergrößern die Lücke.

Wenn Sie als CTO oder Head of L&D im DACH-Mittelstand 2026 eine KI-Trainings-Beschaffung führen, sehen Sie aktuell eine Verkaufs-Welle. Jeder zweite IT-Beratungsanbieter hat seit Q4 2025 ein "KI-Programm" im Portfolio. Die Pitches versprechen Produktivitätsgewinne von 30 bis 300 Prozent, "100 Prozent praktische" Trainings-Tage, Universalität für alle Dev-Stufen, "Online-Modul plus optionaler Workshop reicht völlig aus", und ein "umfassendes KPI-Dashboard, das den Erfolg messbar macht".

Diese fünf Versprechen sind die häufigsten, die wir 2026 in DACH-Procurement-Gesprächen sehen. Vier davon sind Bullshit, eines ist halbwahr und gefährlich. Wir bei Sentient Dynamics arbeiten mit erfolgsbasierter Vergütung, das heißt unser Honorar hängt am gemessenen Output unserer Trainings. Wir wären schon vor 12 Monaten bankrott, wenn die fünf Versprechen so funktionieren würden, wie sie verkauft werden. Die PwC-Daten zeigen, was passiert wenn man sie unkritisch kauft: 80 Prozent Null-Effekt.

Dieser Post ist ein Aufklärungs-Post. Er nennt keine Anbieter, weil das ein juristisches Minenfeld wäre, und weil das Pattern wichtiger ist als die einzelnen Akteure. Er liefert die fünf Versprechen mit Daten-Gegenbeweis und drei Pattern, die in unseren Engagements 2026 messbar funktionieren.

Wer dieser Post ist und wer nicht

Dieser Post richtet sich an Tech-Entscheider und L&D-Leads im DACH-Mittelstand, die in Q2 oder Q3 2026 eine KI-Trainings-Beschaffung führen. Konkret: Sie haben ein Trainings-Budget zwischen 50.000 und 500.000 Euro im Jahr und müssen entscheiden, welches Programm Sie kaufen, ohne dass die Investition im 80-Prozent-Tail landet.

Nicht passend ist der Post für Solo-Entwickler oder kleine Teams ohne Trainings-Budget. Für die ist die Frage nach Programm-Wahl irrelevant, weil sie sich autodidaktisch durch Anthropic-, GitHub- und Cursor-Docs lesen.

Versprechen 1: "Unser Training ist 100 Prozent praktisch"

Das häufigste Versprechen. Pitcher zeigen Slides mit "Hands-On-Anteil 100 Prozent" und "kein theoretischer Ballast". Was in der Realität passiert: 60 bis 70 Prozent Slides oder Demo-Video-Walkthroughs, 20 bis 30 Prozent strukturierte Übungen mit vorbereiteten Sandboxes, 5 bis 10 Prozent Arbeit an echten Tickets aus dem Backlog des Teams.

Daten-Gegenbeweis: Das einzige Trainings-Pattern, das in der McKinsey-2026-Analyse mit 16 bis 30 Prozent Produktivitätsgewinn korreliert, ist Arbeit an "echten Tickets aus dem laufenden Backlog mit unmittelbarem Pair-Programming und Code-Review-Loop". Sandbox-Übungen mit fiktiven Beispielen korrelieren nicht.

Praktischer Test in der Procurement: Fragen Sie den Vendor: "Welcher Anteil der Trainings-Zeit ist Arbeit am echten Backlog des Teams, mit unserem Code, mit unseren Konventionen, im echten Repo, mit echten Reviewer-Loops?" Wenn die Antwort unter 60 Prozent ist, ist das Training nicht "100 Prozent praktisch", sondern ein Workshop-Theater.

In einem Engagement Q1 2026 mit einem deutschen Mittelständler haben wir 3 Tage Hands-on im echten Repo gemacht, ohne ein einziges Slide-Deck. Das Team hat in den 3 Tagen 7 Tickets aus dem Refactoring-Backlog abgebaut, die Senior-Devs haben gegenseitig reviewt, und das Cycle-Time-Pre-Post-Delta war messbar. Trainings-Anbieter, die mit Pre-built-Sandbox-Übungen arbeiten, können diesen Output nicht liefern, weil die Übungen den realen Stack nicht abbilden.

Versprechen 2: "10x Produktivität für Ihr Engineering-Team"

Das gefährlichste Versprechen, weil es die Geschäftsleitung einkauft. "10x" ist eine Marketing-Zahl, die in keiner peer-reviewed Studie 2026 auftaucht. Die seriöseste verfügbare Quelle ist GitHub-RCT (55 Prozent schneller bei umrissenen Aufgaben), Accenture-Enterprise-RCT (plus 8,69 Prozent Pull Requests pro Entwickler) und Mittelstand-Digital-Auswertung 2026 (18 bis 35 Prozent Kosteneinsparung in Top-Quartil-Adoptern).

Daten-Gegenbeweis: METR-Studie 2025, Update Februar 2026: erfahrene Entwickler in komplexen Codebases brauchen mit AI-Tools 19 Prozent länger als ohne. Aber sie glauben, 20 Prozent schneller zu sein. 40-Prozentpunkte-Wahrnehmungslücke. Realistisches Einstiegsziel im ersten Jahr ist 1,5x Cycle-Time pro Größeneinheit, nicht 10x.

Was 10x-Versprecher übersehen: Die Zahl ist meistens hochgerechnet aus einem Inline-Suggestion-Acceptance-Rate-Vergleich ("der Dev tippt 10x weniger Zeichen") und ignoriert die Cycle-Time-pro-Größeneinheit. Dev tippt weniger Zeichen, aber die Pull-Request-Time-to-Merge bleibt gleich, weil Reviewer mehr Zeit für die Validierung brauchen. Netto-Effekt: marginal oder negativ in komplexen Codebases.

Praktischer Test: Fragen Sie den Vendor: "Welche Cycle-Time-pro-Größeneinheit-Daten haben Sie aus echten Engagements?" Wenn die Antwort "Inline-Suggestion-Acceptance" oder "Lines-of-Code-pro-Tag" ist, kennt der Vendor die METR-Studie nicht oder ignoriert sie bewusst.

Wie misst man KI-Beschleunigung ehrlich? Ein KPI-Framework jenseits von Lines-of-Code →

Versprechen 3: "Unser Training funktioniert für alle Dev-Stufen gleich"

Universalitäts-Pitch. "Vom Junior zum Architect, alle bekommen denselben Output." Das verkauft sich gut, weil die L&D-Abteilung nur ein Programm beschaffen muss.

Daten-Gegenbeweis: Die METR-Studie zeigt: Senior-Devs in komplexen Codebases werden 19 Prozent langsamer mit AI-Tools, Junior-Devs in umrissenen Aufgaben 55 Prozent schneller. Der Spread zwischen Senior und Junior ist 74 Prozentpunkte. Das gleiche Trainings-Programm trifft beide nicht.

Was wirklich passiert: Senior-Devs verlieren in einem Universal-Training Zeit, weil das Material zu basic ist. Junior-Devs verlieren in einem Universal-Training Zeit, weil das Material zu architecture-heavy ist. Beide verlassen das Training mit einer Productivity-Wahrnehmung, die nicht der gemessenen Realität entspricht. Genau das ist die 40-Prozentpunkte-Wahrnehmungslücke aus METR.

Praktischer Test: Fragen Sie den Vendor: "Wie unterscheidet sich Ihr Programm zwischen Senior-Devs in Brownfield-Codebases und Junior-Devs in Greenfield-Tasks? Welche Skills-Library-Inhalte sind unterschiedlich?" Wenn die Antwort "wir machen das gleiche Programm" oder "wir adaptieren spontan" lautet, ist das Universal-Theater.

In unseren Engagements 2026 splitten wir Trainings-Programme in zwei Tracks: Senior-Track mit Fokus auf Skill-Library-Architektur, Multi-Step-Reasoning, Permissions-Setup. Junior-Track mit Fokus auf Inline-Suggestion-Pattern, Test-Generation, Doc-Sync. Beide Tracks teilen sich CLAUDE.md plus Custom Commands, aber die Skills sind getrennt, weil die Anwendungsfälle es sind.

Versprechen 4: "Ein Online-Modul plus optional Workshop reicht"

Das Skalierbarkeits-Versprechen. Vendor verkauft einen Self-paced-E-Learning-Kurs für 199 Euro pro Mitarbeiter und ein optionales Workshop-Add-on für 5.000 Euro. "Sehr skalierbar, sehr Budget-freundlich."

Daten-Gegenbeweis: McKinsey-2026-Daten zeigen, dass die Top-Performer (16 bis 30 Prozent Produktivitätsgewinn) zu 57 Prozent auf hands-on Workshops und 1:1-Coaching setzen, zu 12 Prozent auf E-Learning. Bei den Bottom-Performern (null Produktivitätsgewinn) ist die Verteilung umgekehrt: 60 Prozent E-Learning, 20 Prozent Workshop. Self-paced E-Learning korreliert mit dem 80-Prozent-Tail.

Was wirklich passiert: Devs starten den E-Learning-Kurs in Woche 1, schließen ihn in Woche 2 nicht ab (typische Completion-Rate 25 bis 40 Prozent in Mittelstand-Engagements 2026), wechseln in Woche 3 zur normalen Roadmap-Arbeit, vergessen die Inhalte bis Woche 8. Das Workshop-Add-on findet 6 Monate später statt, an dem die L&D-Abteilung den Erfolg gemessen haben will, und die Trainings-Wirkung ist null.

Praktischer Test: Fragen Sie den Vendor: "Welche Completion-Rate haben Ihre Self-paced-Module in DACH-Mittelstand-Cohorts? Welche 90-Tage-Productivity-Daten haben Sie nach Self-paced vs Hands-on?" Wenn die Antwort "Completion-Rate ist nicht der richtige KPI" lautet, hat der Vendor die Daten nicht oder ignoriert sie.

In unseren Engagements 2026 ist das Pre-Workshop-Self-paced-Modul vorgesehen (4 bis 8 Stunden), aber als Voraussetzung für die Workshop-Tage, nicht als Ersatz. Plus Review-Tag nach 6 Wochen. Workshop ohne Pre-Modul funktioniert nicht (Devs sind nicht alignt). Pre-Modul ohne Workshop funktioniert nicht (Inhalte verpuffen).

Versprechen 5: "Wir messen alles und liefern ein Productivity-Dashboard"

Das Mess-Versprechen. Vendor pitcht ein "umfassendes KPI-Dashboard" mit 20 bis 40 Metriken: Lines-of-Code, Commits, Story-Points, Pull-Requests, Inline-Acceptance-Rate, Skill-Usage. Sieht beeindruckend aus auf der Slide.

Daten-Gegenbeweis: Lines-of-Code, Commits und Story-Points greifen nicht, das ist seit 20 Jahren Stand der Forschung (DORA-Reports, Accelerate-Buch, McKinsey-Developer-Productivity-Studien). Inline-Acceptance-Rate korreliert nicht mit Cycle-Time, das ist die explizite Erkenntnis von METR und Stack Overflow 2025. Was zählt: DORA-Vier (Lead Time for Changes, Deployment Frequency, MTTR, Change Failure Rate) plus eine größenklassen-normierte Velocity. Drei bis fünf Metriken, nicht zwanzig.

Was wirklich passiert: Das 40-Metriken-Dashboard zeigt nach 90 Tagen einige Zahlen grün und einige rot. Das Trainings-Team interpretiert die grünen Zahlen als Erfolg ("Inline-Acceptance plus 60 Prozent!") und ignoriert die roten ("Cycle-Time-Pre-Post-Delta nicht messbar"). Die Geschäftsleitung sieht das grüne Dashboard und genehmigt das nächste Trainings-Quartal. ROI-Wahrheit bleibt verborgen.

Praktischer Test: Fragen Sie den Vendor: "Welche drei Metriken liefern Sie pre und post 90 Tage, und welcher Mess-Pfad zeigt, ob das Training gewirkt hat?" Wenn die Antwort mehr als fünf Metriken nennt oder Lines-of-Code enthält, ist das Mess-Theater.

KPI-Framework jenseits von Lines-of-Code: Wie messen wir KI-Beschleunigung ehrlich →

Was stattdessen funktioniert: Drei Pattern aus DACH-Engagements 2026

Pattern 1: Hands-on im echten Repo, mit echten Tickets, mit Pair-Programming-Loop. 3 bis 5 Tage Vor-Ort-Workshop am Code des Teams, nicht in vorbereiten Sandboxes. Senior-Coach plus 6 bis 9 Devs, 2 bis 3 Tickets pro Tag mit unmittelbarem Code-Review. Pre-Workshop ein Self-paced-Modul von 4 bis 8 Stunden für die Tool-Basics, das ist nur Vorbereitung. Workshop ist die Wirkungs-Phase.

Pattern 2: Senior-Junior-Track-Splitting mit unterschiedlicher Skill-Library-Architektur. Senior-Track baut die Skill-Library für die ganze Org auf, Junior-Track lernt die Library zu konsumieren. Beide Tracks teilen die CLAUDE.md plus Custom Commands, die Skills selbst sind unterschiedlich. Das skaliert, weil die Senior-Skills die Junior-Workflows triggern.

Pattern 3: Output-gemessener KPI-Loop mit DORA plus Größeneinheit. Drei Metriken: Lead Time for Changes pro Größeneinheit, Pull-Request-Compliance-Rate mit Team-Konventionen, Time-to-Productive für neue Devs. Pre-Workshop-Baseline aus historischen Tickets, Post-Workshop-Messung nach 90 Tagen. Bei Sentient ist die erfolgsbasierte Vergütung an genau diese drei Metriken gekoppelt.

In einem Engagement mit einem deutschen Industrieausrüster Q1 2026 haben wir die drei Pattern kombiniert: 4 Tage Hands-on im echten Repo, Senior-Junior-Split, DORA-basiertes KPI-Tracking. Ergebnis nach 90 Tagen: 1,8x Cycle-Time-Beschleunigung in den Modulen mit Skill-Library-Coverage, Pull-Request-Compliance von 62 auf 91 Prozent, Time-to-Productive für zwei neue Hires um 40 Prozent reduziert. Investitions-Total inklusive Pre-Workshop-Modul, 4 Workshop-Tage, Skill-Library-Setup und 6-Wochen-Review-Tag: 65.000 Euro für ein 12-Dev-Team.

60-Minuten-Trainings-Sparring für Ihr Setup anfragen →

Pre-Procurement-Checkliste für KI-Trainings

Vor jeder KI-Trainings-Beschaffung sollten diese fünf Fragen schriftlich vom Vendor beantwortet sein. Sie sind unser Mindestkriterium aus 12 Monaten Engagement-Praxis und Beschaffungs-Beratung:

Hands-on-Anteil: "Wieviel Prozent der Trainings-Zeit ist Arbeit am echten Backlog des Teams, mit unserem Code, im echten Repo?" — Antwort sollte ≥ 60 Prozent sein.
Cycle-Time-Daten: "Welche Pre-Post-90-Tage-Cycle-Time-Daten haben Sie aus echten Engagements?" — Antwort sollte konkrete Zahlen mit Engagement-Kontext nennen, nicht "Inline-Acceptance".
Senior-Junior-Differenzierung: "Wie unterscheiden sich Programm-Inhalte zwischen Senior- und Junior-Track?" — Antwort sollte konkrete Skill-Library-Splits nennen.
Online-vs-Hands-on-Mix: "Welcher Anteil des Programms ist Self-paced und welcher Hands-on?" — Antwort sollte Hands-on dominant zeigen, Self-paced als Vorbereitung.
KPI-Set: "Welche drei Metriken liefern Sie und welcher Mess-Pfad zeigt Wirkung?" — Antwort sollte DORA-basiert sein, ≤ 5 Metriken, keine Lines-of-Code.

Wenn der Vendor bei mehr als zwei dieser Fragen ausweicht oder Marketing-Antworten gibt, ist das Programm nicht beschaffungsreif.

Häufige Fragen

Sind alle Trainings-Anbieter Bullshit? Nein. Die fünf Versprechen sind Pattern, die wir in 2026-Procurement-Gesprächen häufig sehen, aber es gibt auch Anbieter, die die fünf Fragen sauber beantworten. Die Procurement-Aufgabe ist, die zu identifizieren.

Wie hoch sollte das Trainings-Budget pro Dev sein? In unseren Engagements 2026 sehen wir 1.500 bis 3.500 Euro pro Dev für ein vollständiges Programm (Self-paced plus 3-5 Workshop-Tage plus Review). Programme unter 500 Euro pro Dev sind typisch nur E-Learning-Module ohne Hands-on-Anteil.

Was ist mit großen Beratungs-Anbietern wie Capgemini oder Accenture? Die haben Trainings-Programme mit gutem strukturellen Fundament, aber typisch wenig DACH-Mittelstand-Spezifik und hohen Listenpreisen. Für 500-plus-FTE-Organisationen kann das Sinn machen, für 30-200-FTE-Mittelstand ist Sentient-Pattern (kleiner Coach, hands-on, output-gemessen) typisch effizienter.

Können wir Trainings intern selbst entwickeln? Technisch ja. In unseren Engagements sehen wir das in 1 von 10 Fällen funktionieren, weil intern entwickelte Programme die Skill-Library-Architektur typisch nicht abbilden und die Cycle-Time-Messung nicht aufsetzen. Plus: interner Senior-Coach kostet Kapazität, die im laufenden Engineering-Plan nicht eingeplant ist.

Was ist mit AI-Act-Compliance in der Trainings-Beschaffung? Trainings selbst sind nicht AI-Act-relevant, aber der Output (welche Skills lernen Devs, wie wird das in der Pipeline integriert) hat AI-Act-Implikationen. Trainings-Beschaffung sollte parallel zur Compliance-Setup laufen, nicht davor oder danach.

Wie misst man Trainings-ROI ehrlich? Pre-Baseline aus historischen Tickets vor Workshop, Post-Messung nach 90 Tagen, drei Metriken (Lead Time, PR-Compliance, Time-to-Productive). Wenn der Vendor diese Messung nicht aufsetzen kann, kann er den ROI auch nicht behaupten.

Was kostet ein Coding-Agent wirklich? 5 versteckte Kosten-Pattern →

Quellen

Über den Autor

Sebastian Lang ist Co-Founder von Sentient Dynamics und leitet das Agentic-University-Programm. Vor Sentient war er bei SAP in der Strategy-Practice für KI-Workforce-Programme verantwortlich, mit 15 plus Jahren Engineering-Leadership-Erfahrung. Sentient Dynamics arbeitet mit erfolgsbasierter Vergütung und ist im SHD- sowie Bregal-Portfolio im Einsatz.

Newsletter abonnieren | Sebastian auf LinkedIn

5 KI-Trainings-Versprechen, die 2026 in DACH gefährlich Bullshit sind (und was stattdessen funktioniert)