KI-Roadmap für Engineering-Teams: 5 Phasen vom Copilot-Pilot zur Agentic-AI-Produktion
48% der DACH-Unternehmen sind laut Bitkom 2026 in KI-Planung. Ohne strukturierte Roadmap stallt der Sprung zu Produktion bei der Hälfte. 5 Phasen, 90 Tage, KPI-Checks.
Schlüsselzahlen auf einen Blick
- 48 Prozent der DACH-Unternehmen sind laut Bitkom 2026 in der "wir planen"-Gruppe und brauchen eine strukturierte Roadmap.
- 5 Phasen, 90 Tage ist die realistische Timeline vom Pilot zur ersten Produktions-Adoption mit 70 Prozent plus Adoption-Rate.
- 60 Prozent der Engineering-KI-Pilots scheitern laut Gartner an Strukturproblemen, nicht an Tool-Problemen.
- 1,5x Cycle-Time-Beschleunigung ist das realistische Top-Quintile-Ziel pro Phase, gemessen pro Ticket-Größenklasse.
- 20.000 bis 200.000 Euro Budget für ein 50-FTE-Team über die 90-Tage-Roadmap, abhängig von Tool-Wahl und Workshop-Tiefe.
48 Prozent der deutschen Unternehmen sind laut Bitkom 2026 in der KI-Planung. Plus weitere 41 Prozent in der aktiven Nutzung, von denen aber nur ein Bruchteil die Top-20-Performance-Schwelle erreicht. Die zentrale Frage für den DACH-Mittelstand 2026 ist nicht "ob wir KI im Engineering einsetzen" sondern "wie wir vom Pilot in die Produktion kommen, ohne in der Mittelschicht hängen zu bleiben".
Wir bei Sentient Dynamics begleiten DACH-Mittelständler durch genau diesen Sprung. Was wir in jedem Engagement sehen: ohne strukturierte Roadmap stallt die Pilot-zur-Produktion-Transformation bei mindestens der Hälfte aller Teams. Sie kaufen Lizenzen, machen einen Einführungs-Workshop, und 6 Monate später ist die Adoption-Rate bei 25 Prozent stabil und niemand weiß, wie der Vorstand-Bericht aussieht.
Diese 5-Phasen-Roadmap ist das, was wir in Engagements aufbauen. 90 Tage Timeline, klar definierte Output-Artefakte pro Phase, KPI-Checks zur Messung der Fortschritte, Anti-Pattern-Vermeidung in jeder Phase und eine Tool-Decision-Logik, die nicht von der Sales-Story der Vendoren abhängt.
Wer diese Roadmap braucht und wer schon weiter ist
Diese Roadmap richtet sich an CTOs und Heads of Engineering im DACH-Mittelstand zwischen 50 und 2.000 FTE, die entweder noch nicht angefangen haben oder im Pilot-Modus stallen. Konkret: Sie sind in der Bitkom-"wir planen"-Gruppe (48 Prozent) oder in der Bitkom-"wir nutzen aktiv"-Gruppe (41 Prozent), aber Ihre Adoption-Rate liegt unter 50 Prozent und Ihre KPI-Sichtbarkeit ist intransparent.
Nicht passend ist die Roadmap für Teams, die bereits 70 Prozent plus Adoption-Rate haben, ein laufendes KPI-Framework, Workforce-Segmentierung mit Ability-Scores und bewährte Skill-Library. Diese Teams sind bereits in der Top-20-Performer-Gruppe und brauchen stattdessen Skalierungs-Strategien und Cross-Org-Templates, nicht eine Pilot-zur-Produktion-Roadmap.
Was eine Engineering-KI-Roadmap leisten muss und was nicht
Eine Engineering-KI-Roadmap ist nicht ein Strategie-Papier, das einmal pro Jahr zur Beirat-Sitzung präsentiert wird. Sie ist ein 90-Tage-Operations-Plan mit Wochen-Granularität, KPIs pro Woche, klar definierten Anti-Patterns die zu vermeiden sind, und einer Tool-Decision-Logik.
Die drei Kernanforderungen:
1. Messbar. Pre- und Post-KPIs auf Cycle-Time pro Ticket-Größenklasse und Adoption-Rate pro Mitarbeiter. Ohne harte Daten ist die Roadmap-Bewertung am Ende eine Geschmacksdiskussion zwischen Engineering-Lead und Geschäftsführung. Mit Daten ist sie eine ROI-Vorlage für den Vorstands-Bericht.
2. Reversibel. Jede Phase hat einen Exit-Path. Wenn Phase 2 nach 4 Wochen die KPI-Schwelle nicht erreicht, gibt es eine klare Stop-Loss-Logik statt "wir machen jetzt halt weiter". Sunk-Cost-Schutz ist die wichtigste Disziplin in einem Tool-Roll-out.
3. Compliant. AI-Act-Art.-4-Kompetenznachweise werden parallel zur Adoption erzeugt, nicht im Q4 als Notlauf. Audit-Trail ist seit Setup aktiv, Workshop-Teilnahmen sind dokumentiert, Permission-Konfigurationen sind versioniert.
In welcher Phase stehen Sie heute? AI-Readiness-Check, 5 Min, kostenlos →
Phase 1: Setup (Wochen 0-2)
Ziel der Phase. Tool-Wahl getroffen, Permissions konfiguriert, Skill-Library bootstrapped, Cycle-Time-Baseline aus Ticket-Historie etabliert, 3-5 Senior-Devs als Champion-Team identifiziert.
Output-Artefakte am Ende der Phase.
- Tool-Beschaffungs-Entscheidung mit dokumentierter Begründung. Aus unserem Tool-Vergleich (siehe Post zu Cursor vs Copilot vs Claude Code) ergibt sich der Decision-Branch für Ihr Setup.
- Permissions-Setup pro Repo mit Read-, Write- und Bash-Rechten granular pro Tool-Klasse. Bash-Allowlist und Secret-Deny-List konfiguriert. Audit-Trail-Aufzeichnung aktiv.
- 12 bis 18 Monate Cycle-Time-Baseline aus Linear-, Jira- oder GitHub-Issues-Historie. Pro Ticket-Größenklasse (XS, S, M, L, XL) der Median und das 75. Perzentil. Diese Baseline ist der Vergleichsanker für alle späteren KPI-Auswertungen.
- Champion-Team identifiziert mit 3 bis 5 Senior-Devs, die das Tool als erste produktiv nutzen. Wichtig: keine Manager, sondern Hands-on-Devs mit Senior-Erfahrung und Bereitschaft, anderen das Tool zu zeigen.
KPI-Check Phase 1. Adoption-Rate ist nicht relevant in dieser Phase, weil das Tool nur dem Champion-Team zur Verfügung steht. Cycle-Time-Baseline ist etabliert. Compliance-Belege (AVV unterschrieben, Audit-Trail aktiv) liegen vor. Wenn diese drei Punkte nach 2 Wochen nicht stehen, verlängern Sie Phase 1 um eine Woche statt in Phase 2 zu rutschen.
Anti-Pattern Phase 1. "Wir nehmen das günstigste Tool" oder "Wir nehmen alle drei und schauen mal". Beide Wahlen kosten später Quartale. Das günstigste Tool ohne Permissions-Audit zieht später Compliance-Findings nach. Drei Tools parallel fragmentieren die Skill-Library und machen KPI-Vergleiche unmöglich (siehe unseren Post zu Beschaffungs-Fehlern bei Coding-Agenten).
Tool-Vergleich Cursor vs Copilot vs Claude Code für Ihre Phase-1-Wahl →
Phase 2: Pilot (Wochen 2-6)
Ziel der Phase. 3-5 Senior-Devs nutzen das Tool produktiv, schreiben die ersten Skill-Files (CLAUDE.md, Cursor Rules oder Copilot Instructions), führen 2-3 Live-Workshops mit Pair-Programming-Sessions durch.
Output-Artefakte am Ende der Phase.
- 5 bis 10 Skill-Files in der zentralen Skill-Library. Themen: Domain-Patterns Ihres Codebases, häufige Refactoring-Workflows, Code-Style-Konventionen, Test-Patterns. Wichtig: Skill-Files werden vom Champion-Team selbst geschrieben, nicht von einem externen Berater. Selbst-geschriebene Skills haben dreimal höhere Adoption als zugekaufte.
- 2 bis 3 dokumentierte Engagement-Stories aus Live-Workshops. Format: "Ticket-X war als 3 Wochen, 2 Devs eingeplant. Mit Skill-Y und dem Tool in einer Live-Session in einer Woche fertig." Diese Stories werden später zur internen Marketing-Munition für die Adoption-Skalierung.
- Erste Adoption-Rate-Messung im Champion-Team. Ziel: 70 Prozent plus aktive Nutzung pro Woche. Wenn das nicht erreicht wird, ist die Tool-Wahl oder das Workshop-Setup falsch.
- Custom-Commands für die häufigsten Workflows. Konkrete Slash-Commands oder Cursor-Rules für die fünf häufigsten Tasks Ihres Engineering-Teams. Diese Custom-Commands sind der Hebel von Faktor 2 bis 3 auf jede Lizenz.
KPI-Check Phase 2. Adoption-Rate Champion-Team: 70 Prozent plus. Cycle-Time im Champion-Team: 1,2 bis 1,4x (noch nicht voll 1,5x, weil Lernkurve). Compliance: erste Audit-Trail-Auswertungen, Pull-Request-Review-Pflicht enforced.
Anti-Pattern Phase 2. "Wir kaufen nur Lizenzen und lassen die Devs das schon machen." Adoption-Rate stalliert ohne strukturierte Workshops bei 15 bis 25 Prozent. Reine E-Learning-Lizenzen ohne Hands-on-Workshops liefern messbar schlechtere Ergebnisse als Workshops mit Pair-Programming an echten Tickets aus dem Backlog (siehe unseren Post zur Bitkom 2026 Polarisierung).
Anti-Pattern bei KI-Pilotprojekten und wie Sie sie vermeiden →
Phase 3: Scale (Wochen 6-10)
Ziel der Phase. Rollout auf das gesamte Engineering-Team. Workforce-Segmentierung in High-Performer, Adopter, Non-Adopter. Coaching-Pfade pro Segment definiert. Adoption-Rate auf 70 bis 80 Prozent plus im Gesamtteam ziehen.
Output-Artefakte am Ende der Phase.
- Ability-and-Willingness-Score pro Mitarbeiter, datenschutz-konform aufgesetzt, mit Betriebsrat-Vorabklärung wo erforderlich. Aggregierte Auswertungen statt Einzelnamens-Reporting (siehe unseren Post zum KPI-Framework).
- Drei Coaching-Pfade definiert mit konkretem Workshop-Schedule. High-Performer: peer-to-peer Skill-Sharing-Sessions. Adopter: angeleitete Pair-Programming-Sessions mit Champion-Team. Non-Adopter: 1:1-Coaching plus klare Erwartungs-Definition.
- 80 Prozent plus Adoption-Rate im gesamten Team. Gemessen wöchentlich, nicht monatlich. Wer drei Wochen in Folge unter 50 Prozent ist, kommt in den Non-Adopter-Coaching-Pfad.
- Cycle-Time-Tracking in Linear oder Jira mit Skill-Tags. Jedes Ticket bekommt ein Skill-Tag, das den genutzten Workflow markiert. Damit können Sie später pro Skill-Type den ROI berechnen.
KPI-Check Phase 3. Adoption-Rate Gesamtteam: 70 bis 80 Prozent plus. Cycle-Time pro Größenklasse: 1,4 bis 1,5x. Workforce-Distribution: 20 Prozent High-Performer, 60 Prozent Adopter, 20 Prozent Non-Adopter, was der Bitkom-Polarisierung minus 10 Prozentpunkte entspricht (weil Coaching die Distribution leicht verschiebt).
Anti-Pattern Phase 3. "Wir trainieren alle Mitarbeiter gleich." Die Effektivität pro investiertem Euro halbiert sich, weil High-Performer mit Adopter-Material unterfordert sind und Non-Adopter mit High-Performer-Tempo überfordert sind. Segmentierung ist die wichtigste Skalierungs-Hebel in dieser Phase (siehe unseren Post zum KPI-Framework).
KPI-Framework für 1,5x messbare Produktivität →
Phase 4: Measurement (Wochen 10-14)
Ziel der Phase. Hard-ROI-Nachweis für Geschäftsführung und Beirat. Aus den 4 Wochen Adoption-Rate-Daten plus Cycle-Time-Tracking pro Ticket-Größenklasse einen Beirat-fähigen ROI-Bericht generieren.
Output-Artefakte am Ende der Phase.
- ROI-Calculation mit klarer Methodik. Tool-Lizenzen plus Workshop-Kosten plus interner Aufwand auf der Investitionsseite, Cycle-Time-Beschleunigung mal Engineering-Stundensatz auf der Wertseite. Plus Quality-Improvement (weniger Bugs in Production), wo messbar.
- Vorstand-Slide mit drei Charts: Adoption-Rate-Verlauf über die 12 Wochen, Cycle-Time pro Ticket-Größenklasse vor- und nach-Tool-Einführung, Cost-Save pro Quartal extrapoliert auf 12 Monate.
- Investment-Empfehlung für Phase 5. Welche Tool-Lizenzen werden hochgestuft (z.B. Pro-Lizenzen für High-Performer), welche Skill-Library-Bereiche werden vertieft, welche zusätzlichen Workshops sind nötig.
KPI-Check Phase 4. ROI dokumentiert und Vorstand-präsentiert. 1,5x Cycle-Time bestätigt für mindestens eine Ticket-Größenklasse. Compliance-Beleg für AI-Act-Audit ready. Wenn diese drei Punkte stehen, ist die Pilot-zur-Produktion-Transformation gelungen.
Anti-Pattern Phase 4. "Wir messen nichts und sagen, dass es gut war." Bei dem nächsten CFO-Reduktions-Druck stirbt das Programm, weil keine Verteidigungs-Daten vorliegen. Selbst halb-saubere KPI-Daten sind zehnmal besser als gar keine.
ROI-Kalkulator: Was würde 1,5x in Ihrem Team bedeuten? →
Phase 5: Production-Compliance (Wochen 14-90+)
Ziel der Phase. Operationelle Stabilität. Skill-Library wird kontinuierlich erweitert, Compliance-Trail wird quartalsweise auditiert, Workforce-Segmente werden re-evaluiert.
Output-Artefakte am Ende der Phase und laufend.
- Operational-Owner pro Skill-Library-Sektion. Jeder Skill-Bereich hat einen verantwortlichen Senior-Dev, der Updates priorisiert und Deprecations entscheidet.
- Quartalsweise Audit-Trail-Stichproben für AI-Act-Art.-4-Beleg. Externe oder interne Audit-Runde, mindestens einmal pro Jahr extern (siehe unsere 5 Sicherheitsfragen für Coding-Agent-Anbieter).
- Re-Evaluation der Workforce-Scores nach 90 Tagen. Welche Adopter sind zu High-Performern aufgestiegen, welche Non-Adopter zu Adoptern.
- 12-Monats-Renewal-Decision für Lizenzen plus Programm. Erneuern, hochstufen, abstufen oder Tool-Wechsel basierend auf den 12-Monats-KPI-Daten.
KPI-Check Phase 5. Adoption-Rate stabil 70 bis 80 Prozent plus. Cycle-Time stabil 1,5x plus, oder höher in High-Performer-Segments. AI-Act-Compliance-Audit erfolgreich, intern oder extern. Diese drei Punkte sollten quartalsweise re-validiert werden.
Anti-Pattern Phase 5. "Wir lassen es einfach laufen." Ohne Quarterly-Re-Evaluation driften Skills, Tools veralten (Cursor-Update-Zyklus, Copilot-Feature-Releases, Claude-Code-Modell-Versionen), Compliance verliert Beleg-Qualität. Jedes Quartal eine Stunde Re-Evaluation kostet 4 Stunden im Jahr, spart aber bei einem AI-Act-Audit-Findings sechsstellige Remediation-Kosten.
5 Sicherheitsfragen für regelmäßiges Coding-Agent-Audit →
Pilot-vs-Production-Maturity-Matrix
Wo Ihr Team in der 2x2-Matrix aus Tool-Adoption und Process-Maturity steht, entscheidet die nächsten 6 Monate.
Pilot-Limbo (low Adoption, low Maturity). Hier sitzen die meisten Bitkom-"wir planen"-Gruppen-Unternehmen. Lizenzen sind gekauft, ein paar Devs experimentieren, kein KPI-Framework, keine Skill-Library. Die teuerste Position auf langer Sicht, weil Lizenz-Kosten ohne Produktivitätsgewinn anfallen.
Tool-Heavy (high Adoption, low Maturity). Adoption-Rate sieht gut aus, aber kein KPI-Framework und keine Workforce-Segmentierung. Hohe Kosten ohne ROI-Nachweis. Bei der nächsten CFO-Reduktion ist das Programm gefährdet.
Process-Heavy (low Adoption, high Maturity). KPI-Framework existiert, Workforce-Segmentierung ist aufgesetzt, aber niemand nutzt das Tool. Häufig in Teams, in denen Compliance- und Procurement-Anforderungen die Tool-Wahl so eingeschränkt haben, dass das Tool nicht zum Workflow passt.
Top-Performer (high beides). Adoption über 70 Prozent, KPI-Framework laufend, Workforce-Segmentierung dokumentiert, Compliance-Audit-fertig. Hier realisieren Sie die McKinsey 16 bis 30 Prozent Produktivitätsgewinn-Bandbreite.
Die 5-Phasen-Roadmap führt von Pilot-Limbo direkt zu Top-Performer in 90 Tagen. Wer in Tool-Heavy oder Process-Heavy stallt, springt zwei Phasen zurück und beginnt mit der gefehlten Hälfte (KPI-Framework respektive Tool-Adoption).
Häufige Fragen
Warum 5 Phasen und nicht 3 oder 7? Drei Phasen sind zu grob, weil dann Setup und Pilot oder Scale und Measurement zusammenfallen, was in der Praxis zu Vermischung der KPI-Daten führt. Sieben Phasen sind zu fein und erzeugen Reporting-Overhead, der in einem 50-FTE-Team niemand pflegt. Fünf Phasen ist die Granularität, in der jede Phase ein klares KPI-Output hat und in 2 bis 4 Wochen abschließbar ist.
Was passiert, wenn wir Phase 2 nicht in 4 Wochen schaffen? Sie verlängern Phase 2 um 2 Wochen statt in Phase 3 zu rutschen. Wenn auch nach 6 Wochen die Adoption-Rate im Champion-Team nicht 70 Prozent erreicht, prüfen Sie zwei Punkte: Tool-Wahl falsch oder Workshop-Format zu schwach. Beide sind reparierbar.
Können wir Phase 1 und 2 parallel laufen lassen? Nein. Phase 1 erzeugt die Tool-Wahl und die Baseline, Phase 2 setzt darauf auf. Parallelisierung führt zu späteren KPI-Verzerrungen, weil die Baseline nicht sauber ist. Phase 3 und 4 dagegen können um eine Woche überlappen, das ist in der Praxis sogar empfehlenswert.
Was kostet das Programm in Summe? Für ein 50-FTE-Team rechnen wir mit 80.000 bis 200.000 Euro im ersten Jahr für strukturiertes Programm plus Plattform plus KPI-Tracking. Lizenzen sind dabei nur 30 bis 50 Prozent. Bei Pro-Programm erfolgsbasiert ist das Honorar an die identifizierte Einsparung gekoppelt, dann gleicht sich der Cashflow.
Wie groß muss das Champion-Team sein, wenn wir 200 FTE Engineering haben? Bei 200 FTE typisch 8 bis 12 Senior-Devs als Champion-Team, verteilt über die wichtigsten Sub-Teams. Wichtig: nicht alle Champion-Devs in einem Sub-Team konzentrieren, sonst skaliert das Programm in Phase 3 nicht über die Sub-Team-Grenzen.
Müssen wir Pre-Buy-Audit und Tool-Vergleich machen, bevor wir Phase 1 starten? Ja. Das Pre-Buy-Audit (5 Sicherheitsfragen) ist Pflicht-Belegmaterial im AI-Act-Compliance-Trail. Der Tool-Vergleich liefert die Decision-Logik für Phase 1. Beides macht zusammen circa eine Woche Vorlauf vor Phase 1.
Wie überzeugen wir den Betriebsrat? Mit klarer Datenschutz-Konformität, aggregierten KPI-Auswertungen statt Einzelnamens-Reporting, dokumentierten Use-Cases und Workshop-Material vorab zur Vorabklärung. In unseren Engagements ist die Betriebsrat-Vorabklärung typisch 2-3 Sitzungen über 4 Wochen, parallel zu Phase 1.
Was machen wir mit Senior-Devs, die das Tool ablehnen? Erst hören Sie zu, weil deren Bedenken oft technisch fundiert sind (Permissions-Granularität, Audit-Trail, Code-Style-Drift). Beheben Sie die technischen Punkte. Wenn die Ablehnung dann bleibt, akzeptieren Sie den Senior-Dev als Non-Adopter mit klarer Erwartungs-Definition: das Team nutzt das Tool, der Senior-Dev kann opt-out, aber muss kompatible Output-Qualität liefern.
30-Minuten-Assessment-Gespräch zur Roadmap-Anwendung in Ihrem Team →
Quellen
- Bitkom KI-Studie 2026, PDF
- Gartner: Why AI projects fail
- McKinsey: Unleashing developer productivity with generative AI
- PwC AI Performance Study 2026
- Salesforce KI-Index Mittelstand 2026
- EU AI Act, Art. 4
Über den Autor
Sebastian Lang ist Co-Founder von Sentient Dynamics und leitet das Agentic-University-Programm. Vor Sentient war er bei SAP in der Strategy-Practice für KI-Workforce-Programme verantwortlich, mit 15 plus Jahren Engineering-Leadership-Erfahrung. Sentient Dynamics arbeitet mit erfolgsbasierter Vergütung und ist im SHD- sowie Bregal-Portfolio im Einsatz.
Über den Autor
Sebastian Lang
Co-Founder · Business & Content Lead
Co-Founder von Sentient Dynamics. 15+ Jahre Business-Strategie (u.a. SAP), MBA. Schreibt über AI-Act-Compliance, ROI-Messung und wie Mittelstand-CTOs agentische KI tatsächlich einführen.