Was AI-Founder dir nicht sagen: 5 Wahrheiten ueber Agentic AI im Mittelstand
Ich bin AI-Founder. Hier sind 5 Wahrheiten ueber Agentic AI, die meine Branche dir nicht sagt: Industrie-Refs, 95%-Accuracy-Mythos, 6-Monats-Realitaet.
Ich bin Sebastian, Co-Founder Sentient Dynamics. Ich verkaufe Agentic AI. Trotzdem sage ich dir hier, was die meisten AI-Founder (uns eingeschlossen) dir nicht sagen. 5 Wahrheiten, die dir 6 Monate verbrannte Zeit und einen halben EBIT-Punkt sparen koennen.
Kurz zu meinem Frame: Ich habe 2024 mit Igor Sentient Dynamics aufgesetzt, wir sitzen mit unserer Operations in Larnaca, ich selbst lebe mit Familie in Portugal und reise fuer DACH-Workshops nach Deutschland. Wir betreuen aktuell Mittelstaendler zwischen 80 und 800 Mitarbeitern, Schwerpunkt NRW, Bayern, Baden-Wuerttemberg. Ich habe selbst die Fehler gemacht, die ich gleich beschreibe: zu grosse Versprechen am Anfang, zu wenig Production-Hand-off-Planung, zu wenig harte Eval-Sets. Was ich dir hier sage, ist also nicht aus dem Lehrbuch, sondern aus Workshops, in denen ich mit Geschaeftsfuehrern, Heads of IT und Controllern an realen Use-Cases gerechnet habe.
Wenn du gerade in der Anbieter-Auswahl steckst oder einen ersten Agentic-AI-Use-Case planst, dann ist dieser Post das ehrlichste Briefing, das du diese Woche bekommst. Und ja, ich verbrenne damit ein bisschen Marketing-Munition. Aber wenn du mit falschen Erwartungen startest, verbrennst DU Geld, und am Ende landet dein Projekt in dem Pilot-Friedhof, ueber den ich schon geschrieben habe.
Die 5 Wahrheiten auf einen Blick
| Wahrheit | Marketing-Aussage | Realitaet |
|---|---|---|
| 1. Industrie-Expertise | "Wir koennen Industrie X" | 1-2 PoCs, selten Production |
| 2. Mitarbeiter-Ersatz | "Agent ersetzt 2 FTEs" | Agent uebernimmt Aufgaben, nicht Rollen |
| 3. Accuracy-Schwelle | "95% Accuracy ist top" | Bei 10k Tickets: 500 Fehler/Monat |
| 4. DSGVO-Tier | "Enterprise loest DSGVO" | Vendor + Tier + Datenresidenz spezifisch |
| 5. Time-to-Production | "6 Wochen bis Production" | Realistisch 6 Monate inkl. Skalierung |
Wahrheit 1: "Wir koennen Industrie X" stimmt selten
Marketing-Claim: "Wir haben tiefe Erfahrung in [deiner Branche]."
Realitaet: Die meisten AI-Founder, uns eingeschlossen, haben 1 bis 2 Proof-of-Concepts in Industrie X. Selten echte Production-Refs. Was du auf der Anbieter-Folie siehst, ist oft ein 4-wochiger Pilot, der nie skaliert hat.
Warum das so ist: Agentic-AI-Buden sind 2024 bis 2026 wie Pilze aus dem Boden geschossen. Echte Production-Lifecycle-Erfahrung (mit Incident-Response, Run-Cost-Buchung, Owner-Hand-off) braucht 12 bis 18 Monate pro Use-Case. Mathematisch koennen viele Anbieter das schlicht noch nicht haben.
Anonymisiertes Beispiel: Wir haben das Q3 2025 bei einem 220-MA Maschinenbauer aus Baden-Wuerttemberg gesehen. Der Geschaeftsfuehrer hatte vor unserem Workshop bereits einen anderen Anbieter angefragt, dessen Deck "12 Production-Cases im Maschinenbau" auswies. Als wir auf Bitte des GFs die Refs nachgehakt haben, waren von den 12 Cases 9 reine PoCs, 2 lebten als interne Demos, und nur 1 Case lief seit 3 Monaten halbproduktiv mit einem Vertriebs-Bot. Der GF hatte den Vertrag fast unterschrieben. Lesson: Die Marketing-Folie sagt "12 Cases". Die Wahrheit sagt "1 Case mit 3 Monaten Laufzeit". Wer nicht nachfragt, kauft die Folie.
Self-Test-Frage an den Founder: "Zeig mir 3 bis 5 Production-Refs in meiner Branche mit aehnlicher MA-Groesse. Kein PoC, keine Demo, sondern Use-Cases, die seit mindestens 6 Monaten produktiv laufen."
Wenn der Founder ausweicht ("Die meisten Kunden wollen nicht oeffentlich genannt werden"), ist das ein rotes Tuch. Klar gibt es NDAs. Aber ein serioeser Anbieter kann dir mindestens 2 anonymisierte Case-Studies plus 1 Reference-Call vermitteln.
Bridge: Mehr zur Anbieter-Bewertung in Vendor-Lock-in: 7 Vertragsklauseln.
Wahrheit 2: "AI-Agent ersetzt Mitarbeiter" ist Vereinfachung
Marketing-Claim: "Unser Agent ersetzt 2 FTEs im Customer-Support."
Realitaet: Agents ersetzen AUFGABEN, nicht ROLLEN. Wer das nicht versteht, baut den falschen Agent und bekommt am Ende einen Bot, der die einfachen 60% loest und beim Rest die Eskalations-Flut produziert.
Konkretes Beispiel aus unserem Portfolio:
- Falsch: "Customer-Support-Bot ersetzt 2 FTEs."
- Richtig: "Customer-Support-Bot uebernimmt 60% der Standard-Tickets (Passwort-Reset, Versand-Status, Rechnungs-Kopie). 2 FTEs bearbeiten Escalations + Edge-Cases (Kuendigung, Reklamation, B2B-Sonderfall). Effekt: Bearbeitungszeit pro Edge-Case sinkt, weil FTEs nicht mehr durch Standard-Tickets unterbrochen werden."
Der Unterschied ist nicht semantisch. Wer mit "2 FTE Ersatz" plant, hat keinen Eskalations-Owner definiert. Was bei der ersten Beschwerde-Welle krachend scheitert.
Anonymisiertes Beispiel: Q1 2026, ein 380-MA E-Commerce-Haendler aus Hessen. Der CFO hatte im Business-Case "minus 2 FTE im Support" gerechnet, ROI auf 9 Monate. Nach dem Workshop haben wir gemeinsam die Tickets der letzten 60 Tage in 3 Kategorien geclustert: 58% Standard (gut automatisierbar), 27% Edge (Mensch + Bot-Assist), 15% Beschwerde (rein Mensch). Ergebnis: 1,2 FTE-Aequivalent automatisierbar, nicht 2. Die Bot-Zeit-Ersparnis bei den FTEs floss in Reklamations-Bearbeitung, dadurch sank die durchschnittliche Beschwerde-Loesungszeit um 31%. Der ROI wurde nicht ueber "minus Headcount" sondern ueber "weniger Beschwerde-Eskalationen zu C-Level" gerechtfertigt. Lesson: Wer auf FTE-Ersatz fixiert ist, sieht die echten Hebel nicht.
Self-Test-Frage: "Welche AUFGABEN in dieser Rolle automatisiert der Agent, und welche bleiben beim Menschen? Wer ist Eskalations-Owner?"
Bridge: Was Agents grundsaetzlich nicht koennen, steht in Was Agentic AI im Mittelstand NICHT kann.
Wahrheit 3: "95% Accuracy ist gut genug" ist gefaehrlich
Marketing-Claim: "Unser Modell hat 95% Accuracy auf dem Eval-Set."
Realitaet: Fuer eine Demo-Folie klingt 95% top. Fuer Production ist es Use-Case-abhaengig oft katastrophal.
Mathe-Beispiel Customer-Support:
- Volumen: 10.000 Tickets pro Monat
- Accuracy: 95%
- Fehler: 500 falsche Antworten pro Monat
- Annahme: 20% davon eskalieren zu Beschwerde
- Resultat: 100 Beschwerden pro Monat zusaetzlich, von einem System, das "die Arbeit erleichtern" sollte
Beim Vertrags-Drafting oder Compliance-Checks ist 95% noch problematischer. Da reicht ein falsch ausgelegter Paragraph fuer ein 6-stelliges Risiko.
Fix in Production:
- Eval-Set definieren, das deine Edge-Cases abbildet (nicht nur Happy-Path)
- Kontext-Schwelle: ab welcher Confidence faellt der Agent auf Human-in-the-Loop zurueck
- Guardrail-Outputs: was darf der Agent ueberhaupt selbst entscheiden, was muss zur Freigabe
Anonymisiertes Beispiel: Q4 2025, ein 95-MA Kanzlei-Verbund aus Bayern. Pilot: Vertragsanalyse fuer Standard-NDA-Reviews, 92% Accuracy auf dem internen Eval-Set des Anbieters. In der ersten Production-Welle 280 NDAs in 4 Wochen, davon 22 falsch klassifiziert. Bei 3 NDAs wurde eine restriktive Wettbewerbsklausel uebersehen, die spaeter haendisch gefunden wurde und potentiell 6-stelligen Schaden bedeutet haette. Die Lesson aus dem Workshop: 92% war im Eval-Set ok, aber das Eval-Set hatte die Edge-Cases (englischsprachige Klauseln, atypische Formatierungen) nicht abgedeckt. Wir haben das Eval-Set um 140 reale Edge-Cases erweitert, danach lag der Agent bei 88% Accuracy, aber mit Human-Review-Schwelle ab Confidence kleiner 0,85. Niedrigere reine Accuracy, hoehere reale Sicherheit. Lesson: Eval-Set-Qualitaet schlaegt Eval-Set-Score.
Self-Test-Frage: "Was ist die Kostenfunktion eines falschen Outputs in unserem Use-Case? Und ab welcher Confidence-Schwelle eskalieren wir an einen Menschen?"
Bridge: Production-Realitaet im Detail in KI-Pilot-Friedhof und in 5 KI-Failure-Modes.
Wahrheit 4: "DSGVO ist kein Problem mit Enterprise-Tier" stimmt nicht pauschal
Marketing-Claim: "Mit Enterprise-Tier ist DSGVO abgedeckt."
Realitaet: Falsche Verallgemeinerung. DSGVO-Konformitaet ist vendor-spezifisch, tier-spezifisch, datenresidenz-spezifisch. Hier die wichtigsten Faelle Stand Mai 2026:
- ChatGPT Free: Training auf Konversationen ist opt-in (in den Einstellungen toggleable). Default-Verhalten und Toggle-Position aendert OpenAI gelegentlich, also pruefen.
- Gemini Free: Training auf Konversationen ist opt-in (toggleable). Aehnlich ChatGPT.
- Claude Free: Anthropic trainiert standardmaessig NICHT auf Konversationen von Free-Usern. Sicherste Free-Tier-Option fuer ad-hoc Nutzung, aber kein Enterprise-DPA.
- Enterprise / Workspace (alle Anbieter): DPA wird unterschrieben, Datenresidenz ist separat zu klaeren. EU- oder DE-Region oft Aufpreis oder nur auf bestimmten Tiers verfuegbar. Sub-Processor-Listen jaehrlich pruefen.
Heisst: Pauschal "Enterprise loest DSGVO" stimmt nicht. Du brauchst pro Vendor: DPA-Status, Datenresidenz-Garantie, Sub-Processor-Liste, opt-out-Default fuer Training.
Anonymisiertes Beispiel: Q1 2026, ein 140-MA Versicherungs-Makler aus NRW. Der IT-Leiter hatte ChatGPT Enterprise als "DSGVO-konform" abgenickt, weil der Vertrieb das Vendor-Deck so verstanden hatte. Bei genauer Pruefung im Workshop kam heraus: Der Tier war zwar Enterprise mit DPA, aber Datenresidenz default US-Region, EU-Region waere ein anderer Tarif. Zudem stand im internen Slack ein produktives Setup mit Claude Free fuer "schnelle Vertrags-Vorabchecks" mit echten Mandantendaten. Wir haben in 2 Stunden die Vendor-Tier-Residenz-Matrix mit der IT durchgerechnet, Claude-Free-Nutzung mit Mandantendaten gestoppt, und ChatGPT Enterprise auf EU-Region upgegradet. Lesson: "Enterprise-Tier" ist ein Marketing-Wort, nicht ein Compliance-Beweis.
Self-Test-Frage: "Welcher Vendor, welcher Tier, welche Datenresidenz, welcher DPA-Stand? Ist das Sub-Processor-Verzeichnis aktuell?"
Bridge: Tiefer in DSGVO bei Agentic AI in Production. Zusaetzlich: ab 02.08.2026 greift der EU AI Act fuer Annex-III-High-Risk-Anwendungen (z.B. HR-Scoring, Bildungsbewertung, kritische Infrastruktur). Vanilla-Use-Cases wie Customer-Support oder Marketing-Texte sind in der Regel nicht Annex III.
Wahrheit 5: "6 Wochen Pilot, dann Production" ist Mythos
Marketing-Claim: "In 6 Wochen vom Pilot zur Production."
Realitaet: Realistisch ist die Rechnung:
- 6 Wochen Pilot (Eval, Prompt-Engineering, erste Use-Case-Verifikation)
- 6 Wochen Production-Hand-off (Owner benennen, Monitoring aufbauen, Run-Cost-Buchung, Incident-Response, Security-Review)
- 12 Wochen Skalierung (zweite Use-Case-Welle, Stabilisierung, Feedback-Loop)
Summe: rund 6 Monate fuer den ersten wirklich produktiven Use-Case. Wer dir 6 Wochen verspricht, hat den Production-Hand-off nicht eingerechnet. Genau dieser fehlende Hand-off ist Typ-3-Demo-Death im Pilot-Friedhof.
Anonymisiertes Beispiel: Q2 2025, ein 180-MA Maschinenbauer aus NRW. Der CTO hatte einen 6-Wochen-Pilot mit einem Hamburger Anbieter gebucht, Ziel "Production-Bot fuer Service-Anfragen". Nach 6 Wochen lief der Pilot demoreif, der Anbieter hat sich verabschiedet, und der CTO stand mit einem Bot ohne Monitoring, ohne Owner, ohne Run-Cost-Buchung und ohne Eskalations-Pfad da. Es hat weitere 5 Monate gedauert, bis das Setup tatsaechlich produktiv lief: zusaetzliches Budget fuer Monitoring-Tooling, ein interner Owner aus dem Service-Team mit 0,3 FTE Allokation, und eine externe Bereitschafts-Vereinbarung fuer Incident-Response. Reale Gesamtdauer: 7 Monate. Reale Mehrkosten gegenueber dem Pilot-Angebot: rund 38%. Lesson: 6-Wochen-Pilot ist eine Aussage ueber den Pilot, nicht ueber das produktive System.
Self-Test-Frage: "Wer ist Production-Owner nach Pilot-Ende? Wer bucht Run-Cost? Wer macht Incident-Response um 2 Uhr morgens?"
Bridge: Vollstaendiges Failure-Mode-Mapping in 5 KI-Failure-Modes und TCO ueber 12 Monate in AI-Agent-Kosten TCO 12 Monate.
Wie du den richtigen AI-Founder waehlst (6 Fragen bei der Anbieter-Auswahl)
Wenn du jetzt mit einem AI-Founder sprichst, sind das die 6 Fragen, die du stellst (idealerweise im ersten Call). Jede Frage mit Rotem-Tuch-Indikator, an dem du erkennst, dass der Anbieter nicht reif genug ist:
- Production-Refs: "Zeig mir 3 bis 5 Production-Use-Cases in meiner Branche mit aehnlicher MA-Groesse, mindestens 6 Monate live." Rotes Tuch: ausweichende Antwort, nur Demos statt Refs, keine 2 anonymisierte Cases mit Reference-Call moeglich.
- Aufgaben statt Rollen: "Welche AUFGABEN in welcher Rolle automatisieren wir, und wer ist Eskalations-Owner?" Rotes Tuch: Anbieter argumentiert in "minus X FTE" statt in Aufgabencluster, kann Eskalations-Owner-Rolle nicht beschreiben.
- Eval-Set + Kostenfunktion: "Was ist die Kostenfunktion eines falschen Outputs, und ab welcher Confidence-Schwelle eskalieren wir an Menschen?" Rotes Tuch: keine Antwort auf Confidence-Schwelle, kein eigener Eval-Set-Bauprozess, keine Edge-Case-Strategie.
- Vendor-Tier-Residenz: "Welcher Vendor, welcher Tier, welche Datenresidenz, welcher DPA-Stand fuer unseren Use-Case?" Rotes Tuch: "Enterprise-Tier loest DSGVO" als Pauschal-Antwort, kein Sub-Processor-Verzeichnis vorgelegt.
- Production-Hand-off: "Wer ist Production-Owner nach Pilot, wer bucht Run-Cost, wie ist Incident-Response geregelt?" Rotes Tuch: Pilot endet ohne Hand-off-Doc, Anbieter hat kein Run-Cost-Buchungsmodell, Incident-Response nicht vertraglich geregelt.
- EU-AI-Act-Einordnung: "Faellt unser Use-Case ab 02.08.2026 unter Annex III des EU AI Acts? Welche Dokumentations-, Risikomanagement- und Human-Oversight-Pflichten gelten dann?" Rotes Tuch: Anbieter kennt Annex III nicht, behauptet pauschal "EU AI Act ist nicht relevant", oder verspricht "machen wir spaeter".
Wenn der Anbieter bei 2 oder mehr dieser Fragen ausweicht, ist er nicht reif fuer dein Projekt. Punkt.
Eine zusaetzliche Beobachtung aus DACH-Workshops: Laut Bitkom planen ueber 80% der deutschen Unternehmen mit 20+ MA, in den naechsten 12 Monaten in KI zu investieren. Das heisst, du wirst nicht der einzige Kunde sein, der einem Anbieter genau diese 6 Fragen stellt. Wer auf 5 dieser 6 Fragen eine saubere Antwort hat, ist heute schon im Top-Quartil seines Marktsegments. Du erkennst also schnell, ob du mit jemandem im Top-Quartil oder mit jemandem im Hype-Mittelfeld sprichst.
FAQ
Bist du nicht selbst AI-Founder? Warum schreibst du das?
Ja, ich bin AI-Founder bei Sentient Dynamics. Genau deshalb schreibe ich das. Wir wollen Kunden, die wissen, worauf sie sich einlassen, nicht Kunden mit falschen Erwartungen, die in 6 Monaten frustriert sind. Klare Erwartung am Anfang spart beiden Seiten Reibung.
Heisst "1-2 PoCs in Industrie X" automatisch schlechter Anbieter?
Nein. Es heisst: kommuniziere ehrlich. Ein Anbieter mit 2 PoCs in deiner Branche und 5 Production-Refs in vergleichbarer Branche kann passen, wenn er das transparent macht. Problematisch ist nur das Verschleiern.
Was, wenn ich schon im Pilot bin und merke, dass Wahrheit 5 zutrifft?
Pilot nicht abbrechen, sondern Production-Hand-off-Plan einfordern. Klare Owner-Definition, Run-Cost-Mapping, Monitoring-Setup. Erstmal aufschreiben, wer was uebernimmt. Wenn der Anbieter da nicht liefern kann, ist das ein Pivot-Punkt fuer dein Projekt.
Wie passt der EU AI Act in dieses Bild?
Ab 02.08.2026 greifen Pflichten fuer Annex-III-High-Risk-Anwendungen (HR-Scoring, Bildungsbewertung, kritische Infrastruktur). Bei Annex-III-Use-Cases kommt Dokumentation, Risikomanagement, Human-Oversight dazu. Vanilla-Customer-Support oder Marketing-Texte fallen meist nicht darunter, aber dein Use-Case ist im Zweifel mit einem Juristen zu klaeren.
Wie unterscheide ich einen "AI-Founder" von einer reinen Beratungsbude?
Pragmatischer Test: AI-Founder bauen produktive Agenten, sie haben Code im Repo und Run-Cost im Buchhaltungssystem. Reine Beratungsbuden produzieren PowerPoints und Strategie-Papiere, aber kein laufendes System. Beides kann legitim sein, aber stell die Frage explizit: "Wer von eurem Team committed Code in unsere Production-Umgebung, und wer bucht eure Run-Cost?" Wer auf diese Frage ausweicht, will dir keinen produktiven Agent bauen, sondern ein Consulting-Mandat verkaufen.
Reicht ein einzelner AI-Founder als Anbieter, oder brauche ich ein groesseres Haus?
Beides geht. Ein 3- bis 5-Personen-Anbieter, der seit 18 Monaten 2 bis 3 Production-Cases stabil betreibt, kann fuer dich besser sein als ein 50-Personen-Haus, das alle 6 Wochen einen neuen Pilot startet. Entscheidend sind die 6 Fragen oben, nicht die Anbieter-Groesse. Wichtig ist nur das Thema Bus-Faktor: bei einem 3-Personen-Anbieter solltest du im Vertrag eine Source-Code-Hinterlegung und ein klares Exit-Szenario haben, falls der Anbieter ausfaellt. Dazu gleich mehr in dem verlinkten Vendor-Lock-in-Post.
Quellen
- Sentient-Dynamics-Erfahrung aus Agentic-AI-Implementierungen im DACH-Mittelstand 2024 bis 2026
- EU AI Act (Verordnung (EU) 2024/1689), Annex III, Stichtag 02.08.2026 fuer High-Risk
- Bitkom KI-Studie 2025 (Umfrage unter deutschen Unternehmen mit 20+ MA, KI-Investitionsplanung 12 Monate)
- Anbieter-Dokumentation (OpenAI, Anthropic, Google) zu Training-Defaults Stand Mai 2026 (Aenderungen vorbehalten)
- Querverweise: 5 KI-Failure-Modes, KI-Pilot-Friedhof, AI-Agent TCO 12 Monate, Was Agents nicht koennen, Vendor-Lock-in, DSGVO Agentic AI, Agentic AI 7 Begriffe, 30-Tage KI-Onboarding
Du willst diese 5 Wahrheiten als Anbieter-Auswahl-Checkliste? Wir machen einen 1-Tag-Vendor-Audit fuer dein laufendes oder geplantes KI-Projekt. Termin buchen.
Über den Autor
Sebastian Lang
Co-Founder · Business & Content Lead
Co-Founder von Sentient Dynamics. 15+ Jahre Business-Strategie (u.a. SAP), MBA. Schreibt über AI-Act-Compliance, ROI-Messung und wie Mittelstand-CTOs agentische KI tatsächlich einführen.