Vom KI-Pilot zum KI-Programm: der Sprung in die Skalierung 2026

Der Sprung vom ersten KI-Pilot zum echten KI-Programm scheitert 2026 nicht an Technik, sondern an Organisation. 6 Bausteine fuer den Sprung im DACH-Mittelstand.

Der erste KI-Pilot ist die einfache Uebung. Der Sprung zum zweiten, dritten, zehnten Use-Case ist der, an dem 2026 die meisten DACH-Mittelstaendler stehenbleiben. Nicht weil die Technik nicht skaliert, sondern weil die Organisation nicht skaliert. Hier sind die 6 Bausteine, die den Sprung wirklich machen.

Warum ein Pilot kein Programm ist

Ein Pilot ist ein Use-Case, ein Team, ein Sponsor, ein ad-hoc gewaehltes Tool, ein Budget aus der Strategie-Schatulle. Das funktioniert. Es funktioniert sogar gut, wenn der Sponsor laut genug ist und der Use-Case eng genug geschnitten. So sehen die meisten KI-Vorzeigeprojekte 2025 aus.

Ein Programm ist etwas anderes. Es ist nicht der gleiche Pilot mal zehn. Es ist N parallele Use-Cases, eine gemeinsame Plattform, eine Governance, eine Budget-Logik, ein klares Capability-Modell. Der Sprung vom Pilot zum Programm ist ein Phasenwechsel, kein Skalierungsfaktor.

Das Problem: 2026 stehen viele Mittelstaendler genau an dieser Schwelle. Der erste Pilot laeuft, ein zweiter ist in Vorbereitung, ein dritter wird im Vorstand diskutiert. Und dann passiert das, was Gartner im Press Release vom Juni 2025 als Warnung herausgegeben hat: ueber 40 Prozent der agentic-AI-Projekte werden bis Ende 2027 abgebrochen, oft aus Kosten- und Wertgruenden, nicht weil die Modelle nicht funktionieren. Der MIT-NANDA-Report 2025 zeigt dieselbe Geschichte aus der anderen Richtung: 95 Prozent der GenAI-Pilots zeigen keinen messbaren P&L-Effekt. Beides ist kein Modell-Problem. Es ist ein Organisations-Problem.

Wer das versteht, behandelt den Sprung vom Pilot zum Programm als das, was er ist: ein Strukturthema.

Praktischer Lackmus-Test: Wenn die Frage "wer entscheidet, welcher Use-Case als naechster startet" in deinem Haus nicht in einem Satz beantwortbar ist, bist du noch in der Pilot-Phase. Wenn die Antwort "der AI-Owner mit Backlog und Quartals-Review" lautet, bist du im Programm. Dazwischen liegt der Sprung. Und genau dazwischen verlieren die meisten DACH-Mittelstaendler 2026 Tempo, Geld und Vertrauen.

Die 6 Bausteine fuer den Sprung

1. AI-Owner-Rolle

Eine namentliche Person fuer das KI-Programm, nicht "der Vorstand kuemmert sich". Der AI-Owner ist die Person, die fuer die Skalierung der KI im Unternehmen verantwortlich ist: Backlog, Plattform-Entscheidungen, Eskalationen, Reporting an Geschaeftsfuehrung. Typische Profile im Mittelstand: ex-Strategy, ex-Digitalisierung, ex-IT-Lead. Selten ein reiner Tech-Mensch, fast nie ein externer Hire. Das ist ein Reskilling-Pfad aus der bestehenden Belegschaft, kein zusaetzlicher Headcount.

Konkretes Mittelstand-Beispiel: Ein 400-MA-Maschinenbauer macht die ehemalige Leiterin Digitalisierung zur AI-Ownerin, 60 Prozent ihrer Zeit. Sie sitzt nicht in der IT, sondern direkt an der Geschaeftsfuehrung, mit Mandat ueber alle Fachbereiche. Was sie nicht ist: alleinige Entscheiderin in allen Use-Cases. Was sie ist: die Person, die Priorisierungs-Konflikte loest, Plattform-Standards setzt und das KI-Programm gegenueber Vorstand und Beirat reportet. Wer den Owner zur "KI-Macherin" macht, ueberlastet die Rolle. Wer den Owner zur "KI-Orchestratorin" macht, hat den Sprung verstanden.

2. Use-Case-Backlog

Eine sichtbare priorisierte Liste statt verteilter PowerPoints in Mail-Postfaechern. Jeder Use-Case mit Aufwand, Wirkung, Risiko bewertet. Der Backlog ersetzt die uebliche "wer hat eine gute Idee" Logik durch ein nachvollziehbares Ranking.

Im Mittelstand reichen drei Spalten: erwarteter Aufwand (klein/mittel/gross), erwartete Wirkung (klein/mittel/gross), Risiko (Compliance, Vendor, Daten). Das ist nicht akademisch. Es ist die Grundlage dafuer, dass nicht der lauteste Bereichsleiter den naechsten Slot bekommt, sondern der Use-Case mit dem besten Verhaeltnis. Wer mehr will, dokumentiert die Annahmen daneben. Wer kein Backlog hat, fuehrt KI per Zuruf.

Praktischer Hinweis: Der Backlog gehoert nicht in eine PowerPoint, die alle drei Monate aktualisiert wird. Er gehoert in ein Tool, das jeder Stakeholder sieht (Notion, Linear, Jira, Confluence, was auch immer ihr im Haus habt). Sichtbarkeit ist die halbe Disziplin. Ein Backlog, den nur der AI-Owner pflegt, ist kein Backlog, das ist eine private Notiz mit Roadmap-Anspruch.

3. Plattform statt Tool-Zoo

Eine gemeinsame technische Basis fuer alle Use-Cases: LLM-Zugang (Claude, ChatGPT Enterprise oder Gemini Enterprise, in der Regel zwei davon), RAG-Komponenten, Identity-Anbindung (SSO), Logging, Kosten-Monitoring. Damit nicht jeder Use-Case sein eigenes Stack baut.

Der Unterschied im Alltag: Ohne Plattform hat Use-Case A seinen eigenen Vector-Store, Use-Case B nutzt ein anderes RAG-Setup, Use-Case C laeuft ueber einen ChatGPT-Workspace, den keiner ueberblickt. Mit Plattform sind diese vier oder fuenf Bausteine einmal gebaut, einmal abgesichert, einmal beobachtbar. Tool-Vendor-Hinweis nebenbei: in den B2B-Editionen (Claude API und Claude for Work, ChatGPT Business und Enterprise, Gemini for Workspace und Gemini Enterprise in den Tiers Business, Standard und Plus) ist Training auf Kundendaten per Default aus. Gemini Enterprise Starter und die Consumer-Editionen aller drei Anbieter haben abweichende Defaults, das pruefst du bei der Vendor-Auswahl. Das macht die Plattform-Auswahl ruhiger, als sie oft dargestellt wird.

Warnung an die Praxis: "Plattform" heisst nicht "wir bauen alles selbst". Plattform heisst, dass eine bewusste Entscheidung getroffen wird, was zentral steht (LLM-Zugang, SSO, Logging, Eval-Tooling) und was Use-Case-spezifisch bleibt (fachliche Prompts, Datenanbindung, UI). Wer die Plattform-Frage mit "wir machen alles selbst" beantwortet, baut sich eine zweite Schatten-IT. Wer sie mit "wir kaufen alles fertig" beantwortet, baut sich Vendor-Lock-in. Die richtige Antwort liegt zwischen den beiden Extremen und wird mit dem Architekten (siehe Baustein 6) entschieden, nicht von der Geschaeftsfuehrung.

4. Eval-Governance

Wie misst ihr ueber Use-Cases hinweg, was funktioniert? Ohne Eval-Governance hat jedes Projekt seinen eigenen Test, oder gar keinen, oder den Test der Praktikantin. Mit Eval-Governance gibt es ein gemeinsames Test-Set-Prinzip, eine Vorlage fuer Eval-Sets pro Use-Case, ein Drift-Monitoring, ein Regelwerk fuer kritische Use-Cases (HR, Finance, kundenbezogen).

Der typische Mittelstand-Fehler: Eval wird als "Genauigkeit" verkuerzt. Realitaet: Eval umfasst Korrektheit, Vollstaendigkeit, Halluzinationsrate, Latenz, Kosten pro Anfrage, Datenschutz-Verstoesse. Pro Use-Case gewichtet anders. Genau dafuer braucht es Governance, nicht eine perfekte Excel-Tabelle.

Ein Hinweis zu Test-Sets: Sie sind das wertvollste Asset, das ein KI-Programm aufbaut. Sechs Monate Use-Case-Betrieb erzeugen ein Test-Set, das einen Modellwechsel oder ein Vendor-Wechsel ueberhaupt erst entscheidbar macht. Wer keine Test-Sets pflegt, ist beim naechsten Modell-Update auf das Bauchgefuehl der Fachabteilung angewiesen. Das skaliert nicht, und es ist nicht audit-fest.

5. Budget-Logik

Getrennte Budgets fuer Pilot-Ramp und Produktiv-Betrieb. Pilot-Budgets duerfen klein und experimentell sein, hohe Risiko-Toleranz, viele Fehlschlaege erwartet. Produktiv-Budgets sind Run-Rate-Themen, sie kommen aus Fach-Budgets oder einem zentralen KI-Budget, planbar, mit klaren TCO-Annahmen.

Wer beides aus einem Topf zahlt, hat zwei Effekte. Erstens bremst der Produktivbetrieb-Lastenheft-Reflex jeden Pilot aus. Zweitens wird jeder Pilot, der eskaliert, ploetzlich teurer als geplant, weil Run-Rate-Kosten unterschaetzt wurden. Die Trennung ist eine Disziplinfrage, keine Strukturfrage. Ein Mittelstaendler mit 600 MA arbeitet mit einem Pilot-Topf um die 80 bis 120 Tausend Euro im Jahr und einem separaten Run-Rate-Budget, das aus Fach-Bereichen kommt.

6. Capability-Building

10 bis 15 Power-User pro 200 MA als Faustregel fuer Mittelstaendler im aktiven Rollout. Dazu drei Rollen in der Mitte: AI-Architekt (Plattform-Entscheidungen, Sicherheits-Architektur), AI-Operator (Betrieb, Eval-Runs, Monitoring), Governance-Lead (Regelwerk, AI-Act-Pflichten, interne Audits). Das ist konsistent mit dem Skills-Shift, den wir im Post 56 beschrieben haben.

Wichtig: Alle drei Rollen sind Reskilling-Pfade. Architekt kommt aus Senior-Engineering oder Solution-Architecture, Operator aus DevOps oder Anwendungs-Betrieb, Governance-Lead aus Compliance, Datenschutz oder Risk. Power-User kommen aus den Fachbereichen, die den Use-Case taeglich nutzen. Headcount-Erweiterung ist hier nicht das Ziel.

Was Capability-Building praktisch bedeutet: 4 bis 6 Wochen strukturiertes Onboarding fuer die drei Mittel-Rollen, 2 bis 3 Tage Power-User-Training pro Welle, danach kontinuierliche Office-Hours und ein internes Forum. Ohne diese Routine bleibt Capability auf der Folie. Wer Capability nur als Schulungsbudget bucht und keine laufenden Mechaniken einbaut, kauft ein Zertifikat, keine Faehigkeit.

Was ohne diese 6 Bausteine passiert

Erstens: Schatten-IT mit LLMs. Wenn es keine Plattform gibt, kauft jeder Bereich seinen eigenen ChatGPT-Workspace, jeder Use-Case eigene API-Keys, jede Fachabteilung schickt Daten in Tools, die niemand vetted hat. Bitkom hat zur KI-Studie 2025 berichtet, dass 41 Prozent der Unternehmen mit 20 oder mehr Mitarbeitenden GenAI einsetzen, bei 500 und mehr Mitarbeitenden sind es 89 Prozent. Die Frage ist nicht mehr, ob KI im Haus ist. Die Frage ist, ob sie kontrolliert im Haus ist.

Zweitens: Eval-Wildwuchs. Jedes Projekt baut sich seinen eigenen Test, oft erst kurz vor Go-Live, oft ohne Drift-Monitoring danach. Sechs Monate spaeter ist nicht mehr klar, ob Use-Case A immer noch so gut funktioniert wie am Tag des Go-Live. Modell-Updates, Daten-Veraenderungen, neue Edge-Cases bleiben unbemerkt. Die McKinsey State of AI vom November 2025 nennt fehlende Mess-Disziplin als einen der Haupt-Treiber fuer ausbleibenden P&L-Effekt.

Drittens: Vendor-Lock-in aus Bequemlichkeit. Wenn der erste Pilot mit Anbieter X laeuft, laeuft der zweite oft auch dort, weil die Integrations-Arbeit schon gemacht ist. Drei Use-Cases spaeter ist die Abhaengigkeit so tief, dass ein Wechsel ein Sechs-Monats-Projekt waere. Eine Plattform-Entscheidung im Vorfeld haette eine zweite oder dritte Modell-Option freigehalten, ohne dass jeder Use-Case sie einzeln baut.

Viertens: Pilot-Owner blockiert. Die Person, die den ersten Use-Case erfunden hat, wird oft automatisch zur Schluessel-Person fuer alle weiteren Use-Cases. Das ist menschlich verstaendlich und strukturell schaedlich. Der Pilot-Owner war richtig fuer den Pilot. Fuer das Programm braucht es einen Owner mit Mandat ueber alle Use-Cases, nicht einen Champion eines einzelnen Themas. Ohne Trennung wird der erste Erfolg zum Engpass des zweiten.

Fuenftens, indirekt aber teuer: Vertrauensverlust beim Vorstand. Wer den Sprung nicht macht und stattdessen weitere Pilot-Use-Cases nebeneinanderstellt, hat nach 12 bis 18 Monaten viele halbfertige Initiativen, wenig Run-Rate-Effekt und schwer kommunizierbare Ergebnisse. Der naechste Pitch fuer KI-Budget wird dann ungleich schwerer. Genau hier setzt der Gartner-Cancel-Effekt an: nicht weil die Technik versagt, sondern weil die Story nicht mehr erzaehlbar ist.

Die ehrliche Zeitachse: 12 bis 18 Monate fuer den Sprung

Das Sentient-Dynamics-Workshop-Aggregat aus rund 40 DACH-Workshops im Mittelstand zeigt einen konsistenten Wert: Wer sauber vom Pilot ins Programm springt, braucht 12 bis 18 Monate. Nicht 6, nicht 24. 12 bis 18.

Die Verteilung sieht in der Praxis so aus: Monate 1 bis 3 sind AI-Owner-Rolle plus Backlog plus erste Plattform-Entscheidungen. Monate 4 bis 9 ist Plattform-Aufbau parallel zu zwei oder drei Use-Cases, die produktiv gehen. Monate 10 bis 18 sind Eval-Governance, Capability-Building, Budget-Logik-Konsolidierung. Erst ab Monat 18 ist das Programm so weit, dass neue Use-Cases ohne Sondergenehmigung dazukommen koennen.

Wer in 6 Monaten "AI-first" sein will, baut Theater. Wer 12 bis 18 Monate plant und die 6 Bausteine sauber zieht, kommt 2026/2027 als organisierter Adopter raus. Nicht als Vorreiter, das ist auch nicht das Ziel. Als jemand, der KI im Haus hat, ohne Schatten-IT, ohne Eval-Wildwuchs, ohne Vendor-Lock-in, mit Capability statt Heldengeschichten.

Und ja, das ist langsamer, als die Vorstandspraesentation gern haette. Es ist auch realistischer. Wer auf den 6-Monats-Druck reagiert und Bausteine wegklappt, zahlt 18 Monate spaeter mit Aufraeum-Kosten und Vertrauensverlust. Die ehrliche Zeitachse rechnet sich.

Was 2026 anders ist als 2024: Die Modelle sind reif genug, dass die Pilot-Phase tatsaechlich kuerzer wird. Was nicht kuerzer wird, ist der Organisations-Sprung. Eher im Gegenteil. Je schneller die Pilot-Ergebnisse zur Verfuegung stehen, desto frueher steht der Mittelstand vor der Frage "und jetzt?" und desto teurer ist es, die 6 Bausteine nicht im Hintergrund vorbereitet zu haben.

Womit du anfaengst, wenn der erste Pilot laeuft

Empfehlung aus den Workshops: AI-Owner-Rolle und Use-Case-Backlog zuerst. Niedrigster Aufwand, hoechster Effekt auf alles andere. Beides laesst sich in 4 bis 6 Wochen aufsetzen, beides klaert Verantwortlichkeit und Priorisierung. Sobald das steht, wird die Plattform-Frage konkret, danach Eval und Budget, dann Capability.

Wer mit Plattform oder Eval anfaengt, baut Infrastruktur fuer Use-Cases, die noch nicht priorisiert sind. Das fuehrt zu Plattform-Entscheidungen, die spaeter revidiert werden, und zu Eval-Vorlagen, die niemand nutzt. Owner und Backlog zuerst. Der Rest fliesst danach.

Wenn der zweite Use-Case bereits diskutiert wird, ist das genau der Moment. Wenn er schon laeuft, ohne Owner und ohne Backlog, ist es Aufholzeit, kein Notfall. Niemand hat den Sprung in der ersten Iteration sauber gemacht. Es geht darum, ihn in der dritten Iteration sauber zu machen.

Ein letzter pragmatischer Hinweis: Der Sprung ist Geschaeftsfuehrer-Thema, nicht IT-Thema. Wer ihn an die IT delegiert, bekommt eine technisch saubere, aber organisatorisch isolierte Loesung. Wer ihn an die Strategie delegiert, bekommt eine schoene Folie ohne Run-Rate. Die Schnittstelle zwischen beiden, getrieben von einem benannten AI-Owner mit klarem Vorstands-Mandat, ist die Stelle, an der das KI-Programm entsteht.

FAQ

Brauche ich ein "AI Center of Excellence"? Nicht in der Verpackung. Im Mittelstand wirkt der Begriff oft uebertrieben, lockt Vorstandserwartungen und bindet Hire-Budgets. Was du brauchst, sind die 6 Bausteine. Wenn jemand das spaeter "Center of Excellence" nennen will, kein Problem. Vorher fuehrt der Begriff oft zu falschen Strukturen.

Wer im Mittelstand uebernimmt die AI-Owner-Rolle? Typische Profile: ehemalige Leitung Digitalisierung, ehemalige IT-Strategie, ehemalige Strategie/Business-Development. Eher selten ein reiner Engineering-Lead, eher selten extern. Wichtig ist Mandat von der Geschaeftsfuehrung und genug Verstaendnis fuer Fachbereiche, um Use-Cases bewerten zu koennen. 50 bis 70 Prozent Time-Allokation ist im Mittelstand normal.

Was kostet das Programm jaehrlich? Stark groessen- und reifegradabhaengig. Ein 400-bis-700-MA-Mittelstaendler arbeitet typischerweise mit Pilot-Topf 80 bis 120 Tausend Euro, Plattform-Investment 150 bis 300 Tausend Euro im ersten Jahr, Run-Rate-Budgets 100 bis 250 Tausend Euro je nach Use-Case-Anzahl. Capability-Building ist meistens Reskilling, also Schulungs-Budget plus Zeit, kein klassischer Hire-Cost.

Wann ist man fertig mit dem Sprung? Wenn neue Use-Cases ohne Sondergenehmigung in den Backlog kommen, die Plattform sie ohne Custom-Setup tragen kann, Eval automatisch laeuft, das Budget aus der Fach-Logik kommt und der AI-Owner nicht mehr in jedem einzelnen Projekt operativ ist. Erfahrungswert: nach 12 bis 18 Monaten. Vorher ist es Aufbau, nicht Programm.

Hilft das auch fuer die EU-AI-Act-Pflichten ab 02.08.2026? Indirekt ja. Die Governance-Bausteine (Eval-Governance, AI-Owner, Plattform-Logging) sind genau die Strukturen, die du fuer Risikoklassifizierung, Logging-Pflichten und Audit-Faehigkeit ohnehin brauchst. Wer die 6 Bausteine zieht, hat fuer den AI-Act schon die halbe Miete.

Quellen

Gartner Press Release, Juni 2025: "Over 40 percent of Agentic AI Projects Will Be Canceled by End of 2027".
MIT NANDA Report 2025: 95 Prozent der GenAI-Pilots ohne messbaren P&L-Effekt.
Bitkom, KI-Studie 2025: GenAI-Einsatz 41 Prozent ab 20 MA, 89 Prozent ab 500 MA.
McKinsey State of AI, November 2025.
Sentient-Dynamics-Workshop-Aggregat aus rund 40 DACH-Mittelstand-Workshops 2024 bis 2026.

Naechster Schritt

Wenn du gerade an der Schwelle zwischen Pilot und Programm stehst und die 6 Bausteine fuer dein Haus konkret durchgehen willst, buche eine Demo. Wir gehen Owner-Rolle, Backlog-Aufbau und Plattform-Entscheidung in 60 Minuten durch, mit Blick auf deine konkrete Use-Case-Liste.