Welcher erste KI-Agent? 90-Tage-Use-Case-Matrix Mittelstand

41% der Agenten haben Payback in 12 Monaten — aber nur bei den richtigen Use Cases. Die Decision-Matrix mit 5 Funktions-Beispielen und 90-Tage-Plan vom Workshop zum produktiven Agent.

Schlüsselzahlen auf einen Blick

41 Prozent der Agenten-Deployments haben laut OneReach 2026 positiven Payback in 12 Monaten, 18 Prozent in 6 Monaten. Der Median-Time-to-Value liegt bei 5,1 Monaten — aber nur, wenn der Use Case stimmt.
60 bis 80 Prozent Reduktion von manuellem Aufwand bei richtig gewählten Use Cases. 40 bis 60 Prozent Reduktion der Fehlerrate gegenüber rein menschlichen Prozessen.
3-mal so hohe Production-Wahrscheinlichkeit bei Unternehmen, die mit fokussiertem Use Case starten statt mit Multi-Use-Case-Portfolio. Quelle: McKinsey AI Adoption Survey 2026.
5 Prozent Erfolgsrate bei integrierten Pilots ohne klare Use-Case-Auswahl. Wer falsch wählt, ist bei den 95 Prozent. Mehr in unserem Pilot-Production-Post.
30.000 bis 80.000 Euro Pilotbudget für ein 90-Tage-Engagement zum produktiven Agent in DACH-Mittelstand 2026, 90.000 bis 200.000 Euro für Skalierung in mehrere Bereiche.

Wenn Sie als CTO, Head of Operations oder Geschäftsführer im DACH-Mittelstand 2026 einen ersten KI-Agenten beschaffen, ist die wichtigste Entscheidung nicht "welcher Vendor" oder "welches Modell", sondern "welcher Use Case". Die Daten zeigen: 41 Prozent der Agenten haben Payback in 12 Monaten, aber das ist ein Mittelwert. Die Streuung zwischen "schneller Payback in 3 Monaten" und "stille Beerdigung nach 9 Monaten" ist riesig, und der Hauptfaktor ist nicht das Tool, sondern der Use Case.

Dieser Post liefert die Decision-Matrix, die wir in Sentient-Engagements 2026 nutzen, mit fünf konkreten Funktions-Beispielen aus DACH-Mittelstand-Praxis (Einkauf, HR, Buchhaltung, Vertrieb, Engineering) und einem 90-Tage-Plan vom ersten Workshop zum produktiven Agent.

Wer dieser Post ist und wer nicht

Dieser Post richtet sich an Entscheider im DACH-Mittelstand (30 bis 500 FTE), die in den nächsten 6 Monaten einen ersten KI-Agenten beschaffen wollen und vor der Frage stehen, in welchem Funktions-Bereich sie starten. Konkret: Sie haben Budget freigegeben, Sie haben einen AI-Champion, Sie wissen grob was Agentic AI ist (siehe unseren Geschäftsführer-Crashkurs), und Sie müssen jetzt aus 15 möglichen Use-Case-Ideen die ersten 1 bis 3 priorisieren.

Nicht passend ist der Post für Unternehmen, die schon einen produktiven Agenten haben und skalieren wollen. Für die ist unser Pilot-Production-Post der richtige Einstieg.

Die Decision-Matrix: 5 Kriterien für Use-Case-Auswahl

Aus 12 Monaten DACH-Mittelstand-Engagement-Praxis sind das die fünf Kriterien, die Erfolg vorhersagen. Ein Use Case sollte mindestens 4 von 5 erfüllen, idealerweise alle.

Kriterium 1: Hochvolumig. Mindestens 100 bis 500 Vorgänge pro Woche, besser täglich. Use Cases mit unter 20 Vorgängen pro Woche lohnen typisch nicht, weil die Setup-Kosten den variablen Nutzen übersteigen.

Kriterium 2: Regelbasiert. Klare Entscheidungslogik, idealerweise als Decision-Tree oder Workflow-Diagramm darstellbar. Use Cases mit 80-Prozent-Regel-Coverage und 20-Prozent-Edge-Cases sind ideal: Agent erledigt 80 Prozent autonom, eskaliert die 20 Prozent an Menschen.

Kriterium 3: Strukturierte Daten. Input und Output sollten in strukturierter Form vorliegen (Datenbank-Felder, Form-Inputs, JSON, CSV) oder zumindest in semi-strukturierter Form (E-Mails mit klarem Schema, PDFs mit Tabellen). Use Cases mit reinem unstrukturiertem Text-Input (Freitext-Briefe, Audio-Mitschnitte) sind höher-Risiko und brauchen reifere Tooling-Stacks.

Kriterium 4: Messbarer Outcome in 90 Tagen. Sie sollten in 90 Tagen sagen können "Pre-Workshop war Wert X, Post-Workshop ist Wert Y, das ist die Wirkung". Use Cases mit 18-Monats-Wirkungs-Zyklen sind politisch riskant, weil das Budget vor der Messung fällt.

Kriterium 5: Niedriges Compliance-Risiko. Use Cases ohne EU-AI-Act-High-Risk-Klassifikation (HR-Entscheidungen, Kreditentscheidungen, kritische Infrastruktur) sind als Erst-Use-Case bevorzugt, weil sie weniger Compliance-Setup brauchen. Wer mit High-Risk startet, doppelt das Compliance-Setup-Budget. Mehr im EU-AI-Act-90-Tage-Plan.

Fünf Use-Case-Beispiele mit Stop-Light-Bewertung

Aus DACH-Mittelstand-Engagement-Praxis 2026 die fünf häufigsten Erst-Use-Cases mit Bewertung gegen die fünf Kriterien:

Use Case 1: Eingangsrechnungs-Erfassung mit ERP-Plausibilitätscheck. Volumen typisch 200 bis 2.000 Rechnungen pro Woche im Mittelstand (grün). Regelbasiert: 80 Prozent der Rechnungen folgen klarem Schema (grün). Strukturiert: PDFs mit OCR plus ERP-Felder (grün). Outcome in 90 Tagen: Cycle-Time pro Rechnung pre vs post messbar (grün). Compliance-Risiko: niedrig (grün). 5 von 5. Ideal als Erst-Use-Case. Erwarteter Payback: 4 bis 7 Monate, 60 bis 80 Prozent Aufwandsreduktion.

Use Case 2: Kunden-Mail-Triage mit Routing in Postfächer. Volumen typisch 500 bis 5.000 Mails pro Woche (grün). Regelbasiert: 70 Prozent der Mails folgen klarer Klassifikation (grün). Strukturiert: E-Mail-Headers plus Body, semi-strukturiert (gelb). Outcome in 90 Tagen: Time-to-First-Response messbar (grün). Compliance-Risiko: niedrig wenn keine sensiblen Inhalte, mittel bei Kundendaten (gelb). 4 von 5. Sehr gut als Erst-Use-Case. Erwarteter Payback: 5 bis 8 Monate, 40 bis 60 Prozent Aufwandsreduktion.

Use Case 3: Lagerbestands-Monitoring mit automatischer Bestellauslösung. Volumen typisch 1.000 bis 10.000 Artikel pro Tag im produzierenden Mittelstand (grün). Regelbasiert: hochregelbasiert mit Schwellwerten und Lieferzeiten (grün). Strukturiert: ERP-Daten, voll strukturiert (grün). Outcome in 90 Tagen: Out-of-Stock-Häufigkeit pre vs post messbar (grün). Compliance-Risiko: mittel weil Bestell-Workflow finanzielle Aktion ist, braucht Genehmigungs-Workflow (gelb). 4 von 5. Gut als Erst-Use-Case mit Human-in-the-Loop für Bestellungen über X Euro. Erwarteter Payback: 3 bis 6 Monate, 50 bis 70 Prozent Aufwandsreduktion plus Out-of-Stock-Vermeidung.

Use Case 4: Vertriebs-Outreach-Sequenzen mit CRM-Synchronisation. Volumen typisch 200 bis 1.000 Outreach-Vorgänge pro Woche (grün). Regelbasiert: Sequenzen sind regelbar, Personalisierung ist semi-strukturiert (gelb). Strukturiert: CRM-Daten plus generierter Text-Content (gelb). Outcome in 90 Tagen: Reply-Rate plus Conversion pre vs post messbar (grün). Compliance-Risiko: niedrig bei B2B-Outreach mit Opt-out, mittel bei Cold-Outreach (gelb). 3 von 5. Solide als zweiter oder dritter Use Case nach erstem Erfolg. Erwarteter Payback: 6 bis 10 Monate, abhängig von Vertriebs-Maturity.

Use Case 5: Recruiting-Vorauswahl mit Scoring von Bewerbungen. Volumen typisch 50 bis 500 Bewerbungen pro Woche (gelb). Regelbasiert: Soll-Profile sind beschreibbar, aber 30 Prozent Edge-Cases (gelb). Strukturiert: CVs sind semi-strukturiert (gelb). Outcome in 90 Tagen: Time-to-Hire messbar (grün). Compliance-Risiko: HOCH, EU-AI-Act-Annex-III, Personalentscheidungen sind High-Risk (rot). 1 von 5. Nicht empfohlen als Erst-Use-Case. Wenn überhaupt, dann als Multi-Quartals-Projekt mit voller Compliance-Architektur ab Tag eins.

60-Minuten-Workshop-Sparring zur Ihrer Use-Case-Auswahl →

Der 90-Tage-Plan: Vom Workshop zum produktiven Agent

Aus Sentient-Engagements 2026: dieser Plan funktioniert in DACH-Mittelstand-Größe (30 bis 500 FTE) für die ersten 1 bis 2 Use Cases.

Tag 1 bis 7: Use-Case-Discovery-Workshop (3 Stunden). Cross-funktional: Geschäftsführung, AI-Champion, Fach-Owner des Use Cases, IT-Lead. Ergebnis: priorisierte Use-Case-Liste mit Stop-Light-Bewertung gegen die 5 Kriterien. Konkretes Output-Dokument: Use-Case-Charter mit Ziel, KPI, Datenflüssen, Permissions-Anforderungen, Compliance-Bewertung, Budget-Schätzung, Timeline.

Tag 8 bis 21: Pre-Pilot-Setup (2 Wochen). Datenflüsse mappen, Permissions-Anforderungen mit IT klären, Vendor-Auswahl finalisieren (oder Build-Decision treffen, siehe Make/Buy/Partner-Post), Pre-Workshop-KPI-Baseline aus historischen Daten erstellen. Pre-Workshop-KPI ist kritisch: ohne Baseline keine Wirkungs-Messung in 90 Tagen.

Tag 22 bis 49: Pilot-Implementierung (4 Wochen). Agent-Setup im echten Stack, nicht in Sandbox. Read-Only-Modus zuerst, dann eingeschränkter Schreib-Modus mit Human-in-the-Loop für die ersten 50 bis 100 Aktionen. Skill-Library-Setup beginnt parallel: erste 5 bis 10 Skills, CLAUDE.md-Konventionen, Custom Commands.

Tag 50 bis 70: Pilot-Lauf (3 Wochen). Agent läuft produktiv mit reduzierten Permissions, Output-Sampling läuft, Drift-Detection-Pipeline ist aufgesetzt. Wöchentlicher Check-in mit Fach-Owner: was funktioniert, was nicht, welche Edge Cases tauchen auf. Skill-Library wird auf Basis der Edge-Case-Erfahrung erweitert.

Tag 71 bis 90: Wirkungs-Messung und Skalierungs-Entscheidung (3 Wochen). Post-Pilot-KPI-Messung gegen Pre-Pilot-Baseline. Drei Outcomes möglich: (a) Cycle-Time-Verbesserung über 1,8x → Production-Skalierung empfohlen, weiteres Budget freigeben. (b) Verbesserung 1,3x bis 1,8x → Re-Scoping nötig, Use-Case-Anpassung oder Architektur-Korrektur. (c) Verbesserung unter 1,3x → Stop, Use-Case war falsch gewählt, Lernen dokumentieren.

Was im Workshop konkret passiert

Der 3-Stunden-Discovery-Workshop ist der Hebel-Punkt. Aus Sentient-Engagement-Praxis die typische Agenda:

Block 1 (45 Minuten): IST-Aufnahme. Die fünf Workshop-Teilnehmer beschreiben ihre Top-3-Frustrationen aus dem operativen Geschäft. Ohne Filterung. Ergebnis ist typisch eine Liste von 12 bis 20 Pain Points, oft mit überraschenden Konstellationen (z.B. "die Rechnungs-Erfassung kostet uns 4 FTE, niemand wusste das").

Block 2 (45 Minuten): Use-Case-Hypothesen. Aus den Pain Points werden 5 bis 8 Use-Case-Hypothesen abgeleitet. Jede Hypothese: was ist das Ziel, welche Daten sind nötig, welche Systeme sind beteiligt, wer ist Fach-Owner, welcher KPI misst Erfolg.

Block 3 (60 Minuten): Stop-Light-Bewertung. Jede Hypothese wird gegen die fünf Kriterien bewertet. Ergebnis ist eine Reihenfolge: 1 bis 2 grüne Use Cases (4 bis 5 von 5 Kriterien grün), 2 bis 3 gelbe (3 von 5), Rest rot.

Block 4 (30 Minuten): Erst-Use-Case-Festlegung. Aus den grünen Use Cases einen auswählen, der zusätzlich folgende Eigenschaften hat: hat einen klaren Fach-Owner, der das Mandat hat; hat ein klares Pre-Workshop-Datenset für KPI-Baseline; hat keine politischen Konflikte mit anderen Initiativen; ist groß genug für sichtbaren Erfolg, aber klein genug für 90-Tage-Lieferung.

Workshop-Output ist das Use-Case-Charter, ein 4-bis-6-Seiten-Dokument, das die Basis für die Vendor-Verhandlung oder Build-Decision wird.

ROI-Indikatoren: Wann lohnt sich der erste Agent?

Aus DACH-Mittelstand-Engagements 2026 die typischen Payback-Profile:

Payback in 3 bis 6 Monaten: hochvolumige, regelbasierte Use Cases mit strukturierten Daten in nicht-regulierten Bereichen. Beispiele: Eingangsrechnungs-Erfassung, Lagerbestands-Monitoring, einfache Mail-Triage. Voraussetzung: Volumen mindestens 200 Vorgänge pro Woche, klares Pre-Post-KPI.

Payback in 6 bis 12 Monaten: semi-strukturierte Use Cases oder Use Cases mit Compliance-Setup. Beispiele: Vertriebs-Outreach mit Personalisierung, Wissens-Retrieval mit RAG, Customer-Service-Routing mit komplexer Hierarchie. Voraussetzung: Skill-Library wird parallel aufgebaut, KPI-Messung ist sauber.

Payback in 12 bis 24 Monaten: Use Cases mit hoher Komplexität, Multi-System-Integration, oder regulatorisch sensiblen Bereichen. Beispiele: Compliance-Reporting-Automation, Multi-Country-Agent mit Lokalisierung. Voraussetzung: dezidiertes Compliance-Setup, Multi-Team-Koordination.

Kein Payback (5 Prozent der Pilots): Use Cases ohne klaren KPI-Pfad, mit unklarem Fach-Owner, oder mit Pilot in Vendor-Sandbox statt echtem Stack. Mehr Diagnose im Pilot-Production-Post.

Was im 90-Tage-Engagement schief gehen kann

Aus 12 Monaten Engagement-Erfahrung die typischen drei Stolpersteine:

Stolperstein 1: Fach-Owner ist nicht verfügbar. Workshop läuft, Use Case ist gewählt, dann ist der Fach-Owner für die nächsten 6 Wochen im Tagesgeschäft gebunden. Ergebnis: Pilot läuft ohne fachliche Validierung, Edge Cases werden nicht erkannt, Output-Qualität bleibt unklar. Korrektur: Fach-Owner-Verfügbarkeit für 4 Stunden pro Woche im Workshop verbindlich vereinbaren, sonst Workshop nicht starten.

Stolperstein 2: KPI-Baseline fehlt. Pilot ist abgeschlossen, alle sind zufrieden, aber niemand kann sagen "vorher war Cycle-Time X, nachher ist Y, das ist die Wirkung". Ergebnis: Skalierungs-Entscheidung wird politisch getroffen, nicht datenbasiert. Korrektur: Pre-Workshop-KPI-Messung als Stop-Light-Kriterium für Pilot-Start. Ohne Baseline kein Pilot.

Stolperstein 3: IT-Security-Eskalation in Woche 6. Pilot läuft, dann meldet IT-Security: "Welche Daten gehen wo hin? Wer hat Audit-Trail? Wo ist die Datenschutz-Folgenabschätzung?" Pilot wird gestoppt, 4 Wochen Re-Architektur. Korrektur: IT-Security ab Workshop-Tag 1 dabei, Permissions-Konzept und Datenfluss-Diagramm als Pflicht-Output des Workshops.

Häufige Fragen

Können wir mit mehreren Use Cases parallel starten? Technisch ja, empirisch nein. McKinsey 2026: Unternehmen mit fokussiertem Erst-Use-Case haben 3-mal höhere Production-Wahrscheinlichkeit als Multi-Use-Case-Starter. Grund: Skill-Library-Aufbau, Permissions-Setup, KPI-Disziplin sind in den ersten 90 Tagen zentrale Lern-Investitionen, die parallel-Use-Cases verwässern.

Wie viel kostet der 3-Stunden-Workshop? In Sentient-Engagements: typisch im Pilotbudget enthalten (30.000 bis 80.000 Euro), als Standalone-Workshop kostet er 8.000 bis 15.000 Euro abhängig von Vorbereitungs-Aufwand und Teilnehmer-Anzahl. Wir bieten 60-Minuten-Sparring kostenlos an, das deckt nicht die Tiefe des Workshops, aber genug für die ersten Hypothesen.

Was, wenn unser Use Case kein perfektes 5-von-5 ist? Sehr selten findet sich ein 5-von-5-Use-Case. 4-von-5 ist der typische Erst-Use-Case. Wichtig ist, dass die fehlende Bewertung kompensierbar ist: bei semi-strukturierten Daten zusätzliche Tooling-Investition, bei mittlerem Compliance-Risiko zusätzliches Compliance-Setup, bei mittlerem Volumen längere Pilot-Laufzeit.

Wer macht den Workshop, intern oder extern? Intern wenn Sie einen erfahrenen AI-Champion haben mit Workshop-Erfahrung und Use-Case-Discovery-Methodik. Extern wenn Sie keinen erfahrenen Champion haben oder politisch eine externe Stimme brauchen, um zwischen Fach-Bereichen zu moderieren. In unseren 2026-Engagements ist das Verhältnis etwa 30/70 für extern, weil die meisten Mittelständler 2026 noch keinen erfahrenen AI-Champion haben.

Was ist mit dem zweiten und dritten Use Case? Nach dem ersten produktiven Use Case (Tag 90+) sollten Sie 60 bis 90 Tage stabilisieren, bevor der zweite startet. Grund: Skill-Library-Reuse-Patterns, Permissions-Templates, KPI-Frameworks aus dem ersten Use Case sparen 30 bis 50 Prozent Setup-Zeit beim zweiten. Wer parallel-skaliert ohne Stabilisierung, baut Tech-Debt.

Make, Buy oder Partner: KI-Agenten-Beschaffung für Geschäftsführer →

Quellen

Über den Autor

Sebastian Lang ist Co-Founder von Sentient Dynamics und leitet das Agentic-University-Programm. Vor Sentient war er bei SAP in der Strategy-Practice für KI-Workforce-Programme verantwortlich, mit 15 plus Jahren Engineering-Leadership-Erfahrung. Sentient Dynamics arbeitet mit erfolgsbasierter Vergütung und ist im SHD- sowie Bregal-Portfolio im Einsatz.

Newsletter abonnieren | Sebastian auf LinkedIn

Welcher erste KI-Agent? Die 90-Tage-Use-Case-Matrix für DACH-Mittelstand 2026

Schlüsselzahlen auf einen Blick

Wer dieser Post ist und wer nicht

Die Decision-Matrix: 5 Kriterien für Use-Case-Auswahl

Fünf Use-Case-Beispiele mit Stop-Light-Bewertung

Der 90-Tage-Plan: Vom Workshop zum produktiven Agent

Was im Workshop konkret passiert

ROI-Indikatoren: Wann lohnt sich der erste Agent?

Was im 90-Tage-Engagement schief gehen kann

Häufige Fragen

Quellen

Über den Autor

Weiterlesen

5 KI-Trainings-Versprechen, die 2026 in DACH gefährlich Bullshit sind (und was stattdessen funktioniert)

KI-Roadmap für Engineering-Teams: 5 Phasen vom Copilot-Pilot zur Agentic-AI-Produktion

Was ist Agentic AI? Der Geschäftsführer-Crashkurs für DACH-Mittelstand 2026

Einmal im Monat. Nur Substanz.