Dein erster KI-Agent: der realistische Weg vom Use-Case zum Produktivbetrieb

Der Use-Case steht, das Budget auch, und drei Monate spaeter liegt der Agent im Pilot-Friedhof. Nicht die Technik fehlt, sondern 6 Schritte. Hier ist der realistische Weg.

Der Use-Case ist gewaehlt, das Budget steht, alle sind motiviert. Drei Monate spaeter liegt der Agent im Pilot-Friedhof. Nicht weil die Technik nicht konnte, sondern weil sechs Schritte uebersprungen wurden. Das ist das Muster, das wir 2026 in den meisten gescheiterten Mittelstand-Projekten sehen, und es hat fast nie mit fehlenden Technik-Skills zu tun. Es hat mit Disziplin zu tun, an genau sechs Stellen. Hier ist der realistische Weg vom gewaehlten Use-Case zum echten Produktivbetrieb, ehrlich getaktet ueber rund zwoelf Wochen, ohne Heldengeschichten.

Voraussetzung: der Use-Case steht

Dieser Post setzt an einer ganz bestimmten Stelle an: Die Frage "welchen Use-Case nehme ich zuerst" ist beantwortet. Wenn du da noch nicht bist, geh erst durch die Use-Case-Auswahl mit der 90-Tage-Matrix. Dort entscheidest du, welcher Prozess sich als Erstprojekt eignet, anhand von Datenqualitaet, Volumen, Fehlertoleranz und Wertbeitrag. Alles, was jetzt kommt, baut darauf auf.

Die Annahme fuer den Rest dieses Posts: Du hast einen klar benannten Prozess, einen ungefaehren Wertbeitrag und mindestens eine Person, die den Prozess heute manuell macht und dir Fragen beantworten kann. Mehr brauchst du fuer den Start nicht. Was du jetzt brauchst, ist ein Weg, der nicht im Sande verlaeuft. Und der besteht aus sechs Schritten, die aufeinander aufbauen. Wer einen davon ueberspringt, zahlt spaeter doppelt.

Schritt 1: Scharfes Scoping (Woche 1 bis 2)

Der haeufigste Fehler beim ersten Agenten ist nicht zu wenig Ehrgeiz, sondern zu viel. Der erste Agent soll gleich "die gesamte Rechnungspruefung" oder "den kompletten First-Level-Support" uebernehmen. Das ist zu breit, und zu breit bedeutet: nicht messbar, nicht abnehmbar, nie fertig.

Scharfes Scoping heisst, den ersten Agenten so eng zu schneiden, dass eine Person in einem Satz sagen kann, was er tut und woran man Erfolg erkennt. Nicht "kuemmert sich um Rechnungen", sondern "vergleicht eingehende Lieferantenrechnungen mit der zugehoerigen Bestellung und markiert Abweichungen ueber 100 EUR zur manuellen Pruefung". Das ist eng, das ist messbar, und genau deshalb baubar.

Drei Dinge gehoeren in dieses Scope-Dokument, und es passt auf eine Seite. Erstens das Ziel in einem Satz, mit klarer Eingangs- und Ausgangsgroesse. Zweitens die Erfolgskriterien als Zahl: Welche Trefferquote, welche maximale Fehlerquote, welche Bearbeitungszeit gilt als Erfolg. "Funktioniert gut" ist kein Kriterium, "erkennt mindestens 90 Prozent der Abweichungen bei hoechstens 5 Prozent falschen Alarmen" ist eins. Drittens die explizite Abgrenzung: Was der Agent ausdruecklich nicht tut. Diese Negativliste ist wichtiger als die meisten denken, denn sie verhindert das schleichende Aufblaehen, das Piloten erstickt.

Warum die scharfe Eingrenzung kontraintuitiv hilft, haben wir in der Agent-Anatomie erklaert: Agenten brechen bei mehrdeutigen Zielen, nicht bei schweren. Ein eng definierter Agent ist nicht der bescheidenere, sondern der zuverlaessigere. Du kannst spaeter erweitern. Du kannst aber nicht erweitern, was nie produktiv ging.

Schritt 2: Eval-Harness von Tag 1 (Woche 1 bis 2, parallel)

Das ist der Schritt, den fast alle ueberspringen, und er ist der teuerste Fehler. Bevor du eine Zeile baust, brauchst du eine Antwort auf die Frage: Woran messe ich, ob dieser Agent gut genug ist. Diese Messvorrichtung heisst Eval-Harness, und sie entsteht parallel zum Scoping, nicht erst am Ende.

Ein Eval-Harness ist im Kern eine Sammlung echter Faelle mit bekannter richtiger Antwort. Du nimmst dreissig bis hundert reale Vorgaenge aus der Vergangenheit, bei denen du weisst, was rauskommen sollte. Beim Rechnungsbeispiel: dreissig echte Rechnungen, davon einige mit bekannten Abweichungen, einige saubere, ein paar Sonderfaelle wie Teillieferungen oder Stornos. Fuer jeden Fall steht fest, was der Agent ausgeben muesste. Das ist dein Pruefstand.

Der Effekt ist fundamental. Ohne Eval-Harness ist "der Agent ist gut" eine Bauchgefuehl-Aussage, die in jeder Lenkungssitzung kippt. Mit Eval-Harness ist es eine Zahl: "Der Agent erkennt 28 von 30 Abweichungen korrekt, bei zwei falschen Alarmen." Das ist abnehmbar, das ist verteidigbar, und es zeigt dir bei jeder Aenderung sofort, ob du besser oder schlechter geworden bist. Ohne diese Zahl baust du blind, und blind gebaute Agenten gehen nicht produktiv, weil niemand den Mut hat, sie freizugeben.

Die Faustregel aus unseren Workshops: Wer den Eval-Harness erst baut, nachdem der Agent steht, baut ihn meistens gar nicht, und der Pilot stirbt an der Frage "ist das jetzt gut genug". Der Eval-Harness ist kein Luxus fuer Datenscientists, er ist die Voraussetzung dafuer, dass dein Projekt ueberhaupt eine Abnahme erreichen kann. Eine halbtaegige Sammelarbeit am Anfang spart dir Wochen am Ende.

Schritt 3: Pilot bauen (Woche 3 bis 6)

Jetzt erst wird gebaut, und auch hier ist die Disziplin entscheidend: klein, mit echten Daten, mit eng begrenztem Werkzeug-Zugang, eng beobachtet. Der Pilot ist kein Produktionssystem im Kleinen, er ist ein kontrolliertes Experiment, das eine Frage beantwortet: Erreicht dieser Agent die Erfolgskriterien aus Schritt 1, gemessen am Eval-Harness aus Schritt 2.

Echte Daten von Anfang an sind nicht verhandelbar. Ein Agent, der auf erfundenen Beispieldaten gut aussieht, sagt nichts ueber die Realitaet, in der Rechnungen schief gescannt sind, Bestellnummern fehlen und Lieferanten kreative Positionsbezeichnungen verwenden. Genau diese Unsauberkeit ist der eigentliche Pruefstein. Wenn der Pilot an echten Daten nicht laeuft, laeuft er nie.

Der Werkzeug-Zugang gehoert in dieser Phase eng begrenzt. Der Pilot-Agent darf lesen, vergleichen, vorschlagen, aber er fasst noch nichts an, was sich nicht zurueckholen laesst. Kein automatischer Versand, keine automatische Buchung, keine Loeschung. Was der Agent kann und was nicht, ist eine Architekturentscheidung, keine spaetere Konfiguration, und die haeufigsten Stolperstellen dabei stehen in den 5 Architekturfehlern von Pilot zu Production.

Eng beobachtet heisst: Jeder Lauf wird protokolliert, jede Entscheidung des Agenten ist nachvollziehbar, und ein Mensch schaut sich die Ergebnisse taeglich an. Hier klaerst du die Fragen, die im Scope-Dokument noch offen waren: Wie verhaelt sich der Agent bei Sonderfaellen, wo halluziniert er, wo ist er unsicher, an welchen Stellen braucht es mehr Kontext. Am Ende von Woche 6 hast du entweder einen Agenten, der die Eval-Kriterien erreicht, oder eine klare Begruendung, warum nicht, und beides ist ein verwertbares Ergebnis. Was ein Agent grundsaetzlich nicht leisten kann, egal wie gut der Pilot laeuft, steht in was KI-Agenten nicht koennen.

Schritt 4: Guardrails und Human-in-the-Loop (Woche 5 bis 7)

Parallel zum spaeten Pilot entscheidest du, wo der Agent autonom handeln darf und wo nicht. Die Leitfrage ist nicht "wie schlau ist der Agent", sondern "wie umkehrbar ist die Aktion". Diese Unterscheidung ist die wichtigste Sicherheitsentscheidung im ganzen Projekt.

Lesende und vorbereitende Schritte kann der Agent weitgehend autonom machen: Daten holen, vergleichen, einen Entwurf bauen, eine Empfehlung formulieren. Irreversible Aktionen gehoeren hinter eine menschliche Freigabe: Geld ueberweisen, Mails an Kunden senden, Datensaetze loeschen, Vertraege abschliessen. Human-in-the-Loop ist hier kein Misstrauen gegenueber der Technik, sondern saubere Architektur. Du baust eine Abstufung pro Aktionstyp, keinen Schalter auf "ganz oder gar nicht".

Drei Guardrail-Mechanismen gehoeren in jeden ersten Agenten. Erstens das Halluzinations-Abfangen: Wenn der Agent eine Aussage trifft, muss sie auf eine Quelle rueckfuehrbar sein, sonst wird sie als unsicher markiert statt als Fakt ausgegeben. Zweitens Schwellwerte: Ab einer definierten Unsicherheit oder einem definierten Betrag eskaliert der Agent automatisch an einen Menschen, statt selbst zu entscheiden. Drittens der Eskalations-Pfad: Es muss klar sein, an wen ein Fall geht, wenn der Agent nicht weiterweiss, und dieser Mensch muss den Fall mit allem Kontext bekommen, nicht nur ein "ich kann das nicht".

Der Punkt, an dem die meisten zu wenig nachdenken: Was passiert im Fehlerfall. Ein Agent ohne definierten Fehlerpfad faellt entweder still aus, dann merkt es keiner, oder er macht trotzdem irgendwas, das ist schlimmer. Ein guter Guardrail sorgt dafuer, dass der schlechteste Fall ein an einen Menschen eskalierter Vorgang ist, nie ein irreversibler Schaden.

Schritt 5: Schrittweiser Rollout (Woche 8 bis 12)

Wenn der Agent die Eval-Kriterien erreicht und die Guardrails stehen, beginnt der Rollout, und hier gilt eine Regel ohne Ausnahme: nie Big-Bang. Der Agent geht nicht am Montag fuer alle live. Er geht in drei Stufen, und jede Stufe hat ein klares Abbruchkriterium.

Stufe eins ist der Schatten-Betrieb. Der Agent laeuft parallel zum Menschen, auf denselben echten Faellen, aber seine Ausgabe ist noch nicht handlungswirksam. Der Mensch macht die Arbeit weiter wie bisher, und ihr vergleicht: Wo stimmt der Agent mit dem Menschen ueberein, wo weicht er ab, und wer hatte recht. Der Schatten-Betrieb ist die ehrlichste Bewaehrungsprobe, die es gibt, weil sie an der echten Realitaet laeuft, ohne dass ein Fehler weh tut. Zwei bis drei Wochen Schatten-Betrieb in einem Team sind gut investiert.

Stufe zwei ist die Teil-Autonomie in einem Team. Der Agent uebernimmt jetzt die klaren Faelle eigenstaendig, die unsicheren gehen weiter an den Menschen, und dieser eine Pilot-Bereich sammelt Erfahrung, bevor es breiter geht. Stufe drei ist die Ausweitung auf weitere Teams, eines nach dem anderen, mit der Erfahrung aus dem ersten Bereich im Gepaeck. Erst ein Team, dann breiter, nie alles gleichzeitig. Warum der Big-Bang-Rollout so verlaesslich scheitert, zeigt der Pilot-Friedhof an konkreten Mustern.

Der Grund fuer diese Stufung ist nicht Aengstlichkeit, sondern Lernoekonomie. Jede Stufe deckt Probleme auf, die in der vorigen unsichtbar waren, und jedes aufgedeckte Problem ist billiger zu beheben, solange es nur ein Team betrifft. Ein Big-Bang verteilt jedes Problem sofort auf alle und kostet damit Vertrauen, das du nur einmal hast.

Schritt 6: Betriebs-Konzept (ab Produktivgang)

Der Produktivgang ist kein Projektende, er ist ein Betriebsanfang. Das ist der Denkfehler, der die teuersten Spaetschaeden verursacht: Der Agent geht live, das Projektteam loest sich auf, und sechs Wochen spaeter merkt niemand, dass die Trefferquote langsam abrutscht, weil sich die Eingangsdaten veraendert haben. Ein KI-Agent ist Software-Betrieb, nicht abgeschlossenes Projekt.

Vier Fragen muss das Betriebs-Konzept beantworten, bevor der Agent produktiv geht. Erstens: Wer ueberwacht. Es braucht einen benannten Betriebs-Owner, eine Person mit Namen, nicht "das Team", die fuer die laufende Qualitaet verantwortlich ist und der Eval-Harness aus Schritt 2 regelmaessig laufen laesst. Zweitens: Wie wird versioniert. Aenderungen am Agenten, an den Prompts oder an den Modellen muessen nachvollziehbar und zurueckrollbar sein, sonst weisst du nach drei Monaten nicht mehr, warum er sich anders verhaelt als im Pilot.

Drittens: Wie wird auf Drift reagiert. Drift ist das langsame Abrutschen der Qualitaet, weil sich die Welt veraendert: neue Lieferanten, neue Rechnungsformate, ein Modell-Update beim Anbieter. Der Eval-Harness ist hier dein Fruehwarnsystem, weil er die Qualitaet jederzeit als Zahl ausweist. Viertens: Wer ist verantwortlich, wenn der Agent einen teuren Fehler macht. Diese Frage muss vor dem Produktivgang beantwortet sein, nicht im Schadensfall. Die laufenden Betriebskosten dieser Verantwortung, von Monitoring ueber Modell-Gebuehren bis Wartung, rechnet der TCO-Post ueber 12 Monate im Detail durch. Wer den ganzen Weg als Engineering-Programm aufsetzen will, findet die groessere Struktur in der 5-Phasen-Roadmap fuer Engineering-Teams.

Die 4 Stellen, an denen Mittelstaendler 2026 scheitern

In den meisten gescheiterten Erstprojekten, die wir sehen, ist es eine dieser vier Stellen, und keine davon ist ein Technik-Problem.

Erstens, kein Eval-Harness. Ohne messbaren Pruefstand bleibt "ist der Agent gut" eine Meinung, und Meinungen erreichen keine Abnahme. Zweitens, zu breiter Scope. Der erste Agent soll zu viel auf einmal, wird nie fertig und nie abnehmbar. Drittens, Big-Bang-Rollout. Der Agent geht fuer alle gleichzeitig live, das erste echte Problem trifft sofort jeden, und das Vertrauen ist weg, bevor der Agent eine Chance hatte. Viertens, kein Betriebs-Owner. Der Agent geht live, das Team loest sich auf, niemand bemerkt die Drift, und nach drei Monaten ist der Agent schlechter als der Mensch, den er ersetzen sollte. Die uebergreifenden Muster hinter solchen Abbruechen hat Gartner quantifiziert: ueber 40 Prozent der agentic-AI-Projekte werden laut Press Release vom Juni 2025 bis Ende 2027 wieder eingestellt, und die Anti-Pattern dahinter decken sich fast eins zu eins mit dieser Liste.

FAQ

Wie lange dauert das realistisch?

Fuer einen eng geschnittenen ersten Agenten sind die hier beschriebenen rund zwoelf Wochen ein realistischer Rahmen, vom Scoping bis zum ersten produktiven Team. Das ist ein Sentient-Workshop-Aggregat aus 40 DACH-Projekten, kein Versprechen. Komplexere Use-Cases dauern laenger, einfachere koennen schneller gehen. Was sich nicht verkuerzen laesst, ohne es zu gefaehrden, ist der Schatten-Betrieb und der Eval-Harness. Wer da abkuerzt, spart Wochen und verliert Monate.

Brauche ich ein eigenes Team dafuer?

Fuer den ersten Agenten nicht zwingend. Was du brauchst, ist eine Person, die den Prozess fachlich versteht und Fragen beantworten kann, und jemanden mit dem technischen Handwerk, der bauen kann, intern oder extern. Was du ab dem Produktivgang brauchst, ist ein benannter Betriebs-Owner, und der Aufwand dafuer ist klein, aber er muss existieren. Ein eigenes KI-Team baut man sinnvollerweise erst, wenn der erste Agent den Wert bewiesen hat, nicht davor.

Was kostet der erste Agent?

Das haengt zu stark vom Use-Case ab fuer eine seriose Pauschalzahl, und jeder, der dir vorab eine nennt, raet. Was sich sagen laesst: Die Modell-Gebuehren sind bei einem ersten Agenten meist der kleinste Posten, der groessere Aufwand steckt in Scoping, Eval-Harness und der Begleitung des Rollouts. Und der laufende Betrieb kostet weiter, auch nach dem Go-Live. Wir haben die realistischen Posten ueber 12 Monate im TCO-Post aufgeschluesselt, damit du nicht nur die Bau-, sondern auch die Betriebskosten siehst.

Was, wenn der Pilot scheitert?

Ein Pilot, der die Eval-Kriterien nicht erreicht, ist kein verlorenes Projekt, sofern du den Eval-Harness von Tag 1 hattest. Dann weisst du naemlich genau, woran er scheitert: an den Daten, am Scope, am Use-Case selbst. Das ist verwertbares Wissen, das den naechsten Versuch billiger macht. Verloren ist nur der Pilot, der ohne Messvorrichtung lief und an einem diffusen "irgendwie laeuft das nicht" gestorben ist. Genau deshalb ist Schritt 2 nicht verhandelbar.

Ist ein Agent ueberhaupt der richtige Ansatz, oder reicht klassische Automatisierung?

Eine berechtigte Frage, die vor dem Scoping geklaert gehoert. Wenn dein Prozess feste Regeln hat, sich nie aendert und keine Sprachverarbeitung braucht, ist klassische Automatisierung oder RPA oft billiger und robuster. Ein Agent lohnt sich erst, wenn die Aufgabe Mehrdeutigkeit, Sprache oder Anpassung an Zwischenergebnisse erfordert. Die Abgrenzung im Detail steht im Post zu KI-Agent vs RPA vs Automatisierung.

Sources:

Sentient-Dynamics-Workshop-Aggregate, 40 DACH-Workshops 2025-2026 (Mitarbeiterzahl 80 bis 4.000)
Gartner Press Release, Juni 2025 (ueber 40 Prozent der agentic-AI-Projekte bis Ende 2027 eingestellt)
MIT NANDA Report 2025: "GenAI Divide: State of AI in Business 2025" (95 Prozent der GenAI-Pilots ohne messbaren P&L-Effekt)
McKinsey State of AI, November 2025
Bitkom KI-Studie 2025 (deutsche Unternehmen mit 20+ MA: 41 Prozent Adoption; ab 500 MA: 89 Prozent)

Naechster Schritt: Wenn du fuer einen konkreten, bereits gewaehlten Use-Case den Weg zum Produktivbetrieb planen willst, buch dir 30 Minuten ueber unsere Demo-Seite. Wir bringen die sechs Schritte, einen ehrlichen Blick auf deinen Scope und drei Fragen, kein Vendor-Deck. Wenn der Use-Case noch nicht steht, fang bei der 90-Tage-Use-Case-Matrix an, und wer den ganzen Markt-Kontext fuer 2026 sucht, findet ihn in den 6 Entwicklungen, die den Mittelstand 2026 betreffen.

Dein erster KI-Agent: der realistische Weg vom Use-Case zum Produktivbetrieb

Voraussetzung: der Use-Case steht

Schritt 1: Scharfes Scoping (Woche 1 bis 2)

Schritt 2: Eval-Harness von Tag 1 (Woche 1 bis 2, parallel)

Schritt 3: Pilot bauen (Woche 3 bis 6)

Schritt 4: Guardrails und Human-in-the-Loop (Woche 5 bis 7)

Schritt 5: Schrittweiser Rollout (Woche 8 bis 12)

Schritt 6: Betriebs-Konzept (ab Produktivgang)

Die 4 Stellen, an denen Mittelstaendler 2026 scheitern

FAQ

Weiterlesen

KI im Controlling und Finance 2026: was CFOs im Mittelstand wirklich automatisieren koennen

KI im Marketing 2026: vom Content-Hype zur echten Pipeline im Mittelstand

Agentic AI im Unternehmen einführen: der Mittelstand-Leitfaden

Einmal im Monat. Nur Substanz.