Was kostet ein AI-Agent? Das echte 12-Monats-TCO-Modell fuer den Mittelstand

150.000 oder 12.000 Euro? Beide Zahlen zirkulieren als AI-Agent-Kosten. Hier ist das echte 12-Monats-TCO-Modell mit Bandbreiten, mit dem dein CFO planen kann statt mit Pressemitteilungen.

150.000 Euro oder 12.000 Euro? Beide Zahlen zirkulieren als "AI-Agent-Kosten" im DACH-Mittelstand. Beide stimmen. Hier ist das echte 12-Monats-TCO-Modell, mit dem dein CFO planen kann, statt mit Pressemitteilungen.

Der Spread ist kein Marketing-Trick, er ist die Konsequenz von vier Variablen: Volumen (wie viele Agenten-Calls pro Monat), Modell-Tier (Haiku oder Opus), Custom-vs-Standard (RAG auf eigenen Daten oder Off-the-Shelf-Workflow) und Caching-Strategie. Wer diese vier Hebel nicht trennt, redet aneinander vorbei. Was du hier bekommst, ist das Modell mit Bandbreiten und Quellen, nicht eine punktgenaue Erfindung.

Die 5 Kostenbloecke auf einen Blick

Block	Typ	Bandbreite (12 Monate)	Treiber
1. Setup + Integration	Einmalig	8.000 bis 50.000 EUR	Discovery-Tiefe, MVP-Build, Initial-Daten-Pipeline, Eval-Set-Aufbau
2. LLM-API-Kosten	Laufend	1.000 bis 15.000 EUR / Monat	Volumen, Modell-Tier (Haiku vs Opus), Caching-Quote, In/Out-Token-Ratio
3. Hosting + Infra	Laufend	200 bis 3.000 EUR / Monat	RAG-Stack, Vector-DB-Tier, Monitoring, Region
4. Wartung + Iteration	Laufend	1.500 bis 8.000 EUR / Monat	Prompt-Updates, Eval-Suite-Pflege, gelegentliches Retraining
5. Versteckte Kosten	Risiko	0 bis 30 % Pricing-Inflation in 24 Monaten	Vendor-Lock-in ohne Notice-Cap, Foerderung-Verzicht, Opportunity-Cost

Auf 12 Monate hochgerechnet ergibt das fuer einen Mittelstaendler mit ~200 MA und einem produktiven Agenten:

Klein-Szenario (Haiku/Flash, 50k Calls/Monat, RAG-Light): rund 35.000 bis 60.000 EUR Total Cost of Ownership im ersten Jahr
Mittel-Szenario (Sonnet/GPT-5, 150k Calls/Monat, RAG mit eigenem Wissen): rund 90.000 bis 140.000 EUR
Gross-Szenario (Opus/GPT-5, 500k Calls/Monat, Multi-Agent): rund 180.000 bis 250.000 EUR

Warum 150k und 12k beide stimmen

Die 12.000-Euro-Zahl bezieht sich meistens auf einen schmalen Use-Case: ein einzelner Workflow-Agent auf Haiku oder Gemini Flash, mit einem Standard-RAG-Stack, ohne nennenswerte Custom-Integration. 1.000 Euro pro Monat reichen, wenn das Volumen niedrig ist und die Antworten kurz bleiben.

Die 150.000-Euro-Zahl ist der andere Pol: Multi-Agent-Setup auf einem Frontier-Modell, mit produktivem Volumen, Custom-RAG auf 50+ Datenquellen, vollem Eval-Stack, externen Beratern fuer Setup. Das ist kein Phantasiebudget, das ist das, was ein 200-MA-Mittelstaendler mit ernsthaftem Customer-Service- oder Internal-Knowledge-Agenten ausgibt, wenn er es richtig macht.

Welcher Pol fuer euch relevant ist, entscheidet sich an genau drei Fragen: Wie viele Calls pro Monat? Wie sensibel sind die Antworten (also: Frontier-Modell noetig)? Und wie viel eigene Daten muessen ueber RAG rein? Wer das nicht vor dem ersten POC durchrechnet, landet im Mittel zu hoch und im Worst Case bei einem Projekt, das der CFO nach 9 Monaten kuerzt.

Block 1: Setup + Integration (8k bis 50k einmalig)

Das ist der Teil, den Anbieter gerne kleinrechnen, weil er sich am schwersten standardisieren laesst. Was wirklich drin steckt:

Discovery + Use-Case-Schaerfung (5 bis 20 Tage): wer den Discovery-Schritt ueberspringt, baut den falschen Agenten. Das passiert haeufiger als Anbieter zugeben.
MVP-Build (10 bis 40 Tage Entwicklungs-Aufwand): Prompt-Engineering, Tool-Calls, RAG-Pipeline, Eval-Set v1.
Initial-Daten-Pipeline: Wenn ihr eigene Daten reinholt, zahlt ihr fuer Chunking, Embeddings-Erzeugung und Quality-Pass. Bei 100k Dokumenten ist das ein eigener Posten.
Security + DSGVO-Review: ein Tag DPO-Zeit plus interne Freigabe, oft unterschaetzt.

In Euro heisst das: 8.000 EUR ist die Untergrenze fuer einen sehr fokussierten Einzel-Agenten mit Standard-Stack. 50.000 EUR ist realistisch, sobald drei oder mehr Datenquellen, eine echte Eval-Suite und Production-Deployment dazukommen. Wer in eurem erster KI-Agent 90-Tage Use-Case-Matrix Workflow startet, bleibt typischerweise im unteren Drittel dieser Bandbreite.

Wichtig fuer den CFO: Setup ist nicht "AI-Investment", sondern Capability-Aufbau. Der zweite und dritte Agent darauf kosten nur noch einen Bruchteil davon.

Block 2: LLM-API (warum die Caching-Strategie 60 % bestimmt)

Das ist der Block, ueber den Anbieter am ehrlichsten reden, weil die Tarife oeffentlich sind. Stand Mai 2026 sieht das so aus:

Modell	Input	Output	Use-Case
Anthropic Claude Haiku 4.5	1 USD / 1M Token	5 USD / 1M Token	Klassifikation, einfache Q&A
Anthropic Claude Sonnet 4.6	3 USD / 1M Token	15 USD / 1M Token	Standard-Workflow, RAG
Anthropic Claude Opus 4.7	5 USD / 1M Token	25 USD / 1M Token	Komplexes Reasoning, Coding
OpenAI GPT-5	1,25 USD / 1M Token	10 USD / 1M Token	Frontier-Reasoning, Standard
OpenAI GPT-5-mini	0,25 USD / 1M Token	2 USD / 1M Token	Production-Workhorse
Google Gemini 2.5 Flash	0,30 USD / 1M Token	2,50 USD / 1M Token	Hochvolumen, Cost-sensitive
Google Gemini 3 Pro Preview	2 USD / 1M Token	12 USD / 1M Token	Frontier, lange Kontexte

Stand Mai 2026, Quellen: anthropic.com, openai.com/pricing, ai.google.dev.

Der entscheidende Hebel ist nicht das Modell, sondern Caching und Batch. Anthropics Prompt-Caching reduziert Input-Kosten auf etwa 10 Prozent des Standard-Tarifs fuer wiederverwendete Prompts. Batch-API gibt 50 Prozent Rabatt auf In- und Output. Bei einem typischen RAG-Agenten, der den gleichen System-Prompt und die gleichen 10 Top-Dokumente in 80 Prozent der Calls sieht, schlaegt das mit 40 bis 60 Prozent Kostenersparnis durch. Wer das nicht aktiviert, zahlt das Doppelte fuer dieselbe Antwort.

Praktische Faustregel: Bei 150.000 Calls pro Monat, durchschnittlich 3.000 Token In und 800 Token Out, auf Sonnet 4.6 ohne Caching, landest du bei ungefaehr 2.700 USD pro Monat. Mit aktivem Caching auf System-Prompt und Top-Docs fallen das auf ungefaehr 1.100 bis 1.400 USD. Das ist das Delta, ueber das geredet werden muss.

Block 3: Infra + Hosting (RAG-Stack-Realitaet)

Wenn ihr eine eigene Knowledge-Base anbindet, zahlt ihr Hosting fuer drei Komponenten: Vector-DB, Application-Backend, Monitoring/Logging.

Vector-DB: Pinecone Standard startet bei 50 USD pro Monat Mindestcommitment, plus 0,33 USD pro GB Storage und 16 USD pro 1M Read-Units. Stand Mai 2026, Quelle: pinecone.io/pricing. Fuer 200k Dokumente und mittleren Read-Traffic landest du bei 80 bis 250 USD pro Monat. Self-hosted Qdrant oder Weaviate ist guenstiger im Compute, dafuer kostet es Engineering-Zeit, die in Block 4 wieder auftaucht.

Backend + Orchestration: Ein managedes LangGraph-Cloud-, Vercel- oder AWS-Lambda-Setup liegt im niedrigen dreistelligen Euro-Bereich pro Monat fuer typischen Mittelstands-Traffic. Wer auf Bedrock oder Azure AI Foundry geht, zahlt fuer das Foundation-Model dieselben Token-Tarife (oft mit Aufschlag) plus die Hyperscaler-Margen auf Compute und Egress.

Monitoring: LangSmith, Helicone, Langfuse oder hauseigen. 50 bis 300 EUR pro Monat ist die ehrliche Bandbreite fuer ein Setup, das eure Eval-Pipeline wirklich traegt. Ohne Monitoring kein Eval-Set, ohne Eval-Set kein kontrollierter Iterations-Loop, ohne den landet ihr in Block 4 doppelt.

In Summe: 200 EUR pro Monat ist machbar fuer einen schmalen Single-Agent mit kleiner Vector-DB. 3.000 EUR pro Monat ist realistisch fuer Multi-Agent mit serioesem Monitoring und Geo-Redundanz.

Block 4: Wartung + Iteration (das oft Vergessene)

Hier verbrennt der Mittelstand am meisten Geld, ohne dass es im Vertrag auftaucht. Ein produktiver Agent ist kein Stueck Software, das man einmal baut und vergisst. Er hat einen kontinuierlichen Wartungs-Aufwand, weil:

Datenquellen sich aendern (neue Produkte, neue Policies, neues HR-Handbuch)
Prompts driften, sobald das Modell still ein Update bekommt
Eval-Sets erweitert werden muessen, sobald neue Edge-Cases auftauchen
User-Feedback in den Loop muss

Realistisch: 0,2 bis 1 FTE Engineering plus 0,1 FTE Domain-Owner. In Euro bei einem 150-EUR-Stundensatz und 30 Stunden pro Monat: rund 4.500 EUR pro Monat fuer einen produktiven Agenten in einer mittelgrossen Organisation. Wer das nicht einplant, hat nach 6 Monaten einen halb funktionierenden Agenten, dem niemand mehr vertraut. Das ist das Muster, das wir bei DACH-CTOs mit Coding-Agenten gesehen haben, und es gilt fuer Customer-Service-Agenten genauso.

Die Untergrenze von 1.500 EUR pro Monat ist nur erreichbar, wenn der Agent in einem stabilen Kontext laeuft, das Eval-Set automatisiert ist und die Datenquellen sich kaum bewegen. Das ist die Ausnahme, nicht die Regel.

Block 5: Versteckte Kosten (Vendor-Lock-in, Foerderung-Verzicht, Opportunity-Cost)

Drei Posten, die nicht in den Standard-Kalkulationen auftauchen und trotzdem zweistellige Prozent kosten koennen.

Vendor-Lock-in-Risiko. Wer Vertraege ohne Notice-Cap und ohne Portability-Klausel unterschreibt, zahlt im schlechtesten Fall 20 bis 30 Prozent Pricing-Inflation in den naechsten 24 Monaten. Anthropic hat im April 2026 den Enterprise-Seat von Flat-Fee auf Usage-Based umgestellt, mit kurzer Notice. Andere folgen. Schutz: die drei Vertragsklauseln fuer Vendor-Lock-in-Schutz (Portability, Sub-Processor-Notice, Exit-Notice).

Foerderung-Verzicht. Wer keine Foerderung beantragt, gibt netto Geld weg. Mehr dazu im naechsten Abschnitt.

Opportunity-Cost. Jeder Monat ohne produktiven Agenten in einem Use-Case, der reif ist, kostet bei einem mittelgrossen Mittelstaendler im niedrigen vierstelligen bis fuenfstelligen Bereich pro Monat (Personalkosten fuer manuelle Prozesse, die der Agent uebernehmen wuerde). Das ist nicht spekulativ, das ist die Margin-Gap, ueber die im Bain Global PE Report 2025 berichtet wurde: AI-Leaders haben rund 47 Prozent hoehere Marge als Laggards.

ROI-Break-Even: 3 Szenarien fuer einen 200-MA-Mittelstaendler

Damit der CFO planen kann, hier drei Szenarien mit ehrlichen Annahmen.

Szenario A, Customer-Service-Agent. Setup 25.000 EUR, laufend 6.500 EUR pro Monat (LLM 2.000, Infra 500, Wartung 4.000). Annahme: 1,5 FTE-Aequivalent eingespart, das sind ~9.500 EUR pro Monat geladen. Monatlicher Netto-Effekt: 3.000 EUR. Break-Even auf das Setup im Monat 9 (25.000 / 3.000 = 8,3). Im Jahr 1 bleibt netto rund 11.000 EUR uebrig (12 x 3.000 minus 25.000 Setup).

Szenario B, Internal-Knowledge-Agent. Setup 35.000 EUR, laufend 4.500 EUR pro Monat (54.000 EUR pro Jahr). Annahme: 200 MA sparen jeweils 30 Minuten pro Woche an Suchzeit, das sind grob 50.000 bis 80.000 EUR an wiedergewonnener produktiver Zeit pro Jahr (sehr modellabhaengig, der Reality-Check ueber Eval-Suite ist Pflicht). Am oberen Ende der Spanne (80k Einsparung) Break-Even auf das Setup um Monat 16; am unteren Ende (50k) deckt die Einsparung kaum die laufenden Kosten und der Agent rentiert sich erst in Jahr 2.

Szenario C, Sales-Ops-Multi-Agent. Setup 60.000 EUR, laufend 12.000 EUR pro Monat (144.000 EUR pro Jahr). Annahme: Pipeline-Conversion-Lift von 2 Prozentpunkten auf 5 Mio. EUR Pipeline = 100.000 EUR Mehrumsatz. Wichtig: Mehrumsatz ist nicht Margin. Bei einer realistischen Sales-Ops-Marge von 30 bis 50 Prozent entspricht das einem Beitrag von 30.000 bis 50.000 EUR pro Jahr, das deckt die 204.000 EUR Gesamtkosten Jahr 1 nicht ab. Damit dieses Szenario in Jahr 1 break-even erreicht, braucht es einen groesseren Pipeline-Hebel (z.B. 4 Prozentpunkte auf 12 Mio. EUR Pipeline = 480k Mehrumsatz, ~145k Margin bei 30 Prozent) oder einen messbaren Cycle-Time-Effekt zusaetzlich zum Conversion-Lift.

Wichtig: das sind Modelle, keine Garantien. Was diese Szenarien gemeinsam haben, ist die Disziplin, vor dem Setup ein klares Eval-Kriterium fuer Erfolg zu definieren. Ohne das ist jeder Break-Even-Plan Marketing.

Was Foerderung wirklich abdeckt

Stand Mai 2026 gibt es zwei realistische Hebel fuer DACH-Mittelstaendler bei AI-Agent-Projekten.

BAFA "Foerderung von Unternehmensberatungen fuer KMU". Bis zu 80 Prozent in Ostdeutschland (max. 2.800 EUR Zuschuss bei 3.500 EUR foerderfaehigen Beratungskosten) bzw. bis zu 50 Prozent in Westdeutschland (max. 1.750 EUR). Eligibility: weniger als 250 MA, Jahresumsatz unter 50 Mio. EUR oder Bilanzsumme unter 43 Mio. EUR, Sitz in Deutschland, mindestens 1 Jahr am Markt. Bis zu 5 Beratungen pro Foerderperiode (laufend bis 31.12.2026), maximal 2 pro Jahr. Wichtig: erst nach Erhalt des Informationsschreibens darf mit der Beratung begonnen werden, rueckwirkende Foerderung ist ausgeschlossen. Quelle: BAFA-Programm Unternehmensberatungen, Stand Mai 2026.

Realitaetscheck: 2.800 EUR deckt einen Discovery-Sprint ab, nicht den ganzen Setup-Block. Es ist der Tuereffner, nicht das Vollfinanzierungsmodell.

Mittelstand-Digital-Zentren. Kostenfreie Demonstratoren, Workshops und Kurzberatung ueber rund 30 Kompetenz-Zentren. BMWE-Programm, laufend bis 31.12.2026, Nachfolger fuer 2027 angekuendigt aber noch nicht final. Quelle: bundeswirtschaftsministerium.de, Stand Mai 2026.

Regional gibt es Zusatzhebel: Digitalbonus Bayern (Standard bis 7.500 EUR, Plus bis 30.000 EUR, jeweils 50 Prozent Foerderquote, KMU bis 50 MA mit Sitz in Bayern). Andere Bundeslaender haben aehnliche Programme. Wer im Detail in die Foerderlandschaft will, findet das in unserem KI-Foerderung-Mittelstand-2026-Guide.

Das go-digital-Programm ist Anfang 2025 ausgelaufen und nicht direkt durch ein neues Programm ersetzt worden. Wer noch Berater mit "go-digital-Foerderung 2026" wirbt, ist nicht aktuell.

FAQ

Lohnt sich ein eigener Agent fuer einen 50-MA-Mittelstaendler? Wenn der Use-Case wiederholbar und volumenstark ist (Customer-Support, interne Q&A), ja. Bei kleinen Volumina ist eine Off-the-Shelf-Loesung (Kundenchat-Plattformen mit AI-Layer) oft wirtschaftlicher. Der AI-Maturity-Check hilft bei der Einordnung.

Make oder Buy? Hybrid ist meistens das Optimum. Frontier-Modelle und Vector-DB als Service einkaufen, Orchestration und Eval-Suite selbst halten. Mehr dazu im Make-Buy-Partner-Guide.

Wie schnell zahlt sich Caching aus? Sofort. Wer Anthropic Prompt Caching auf System-Prompts und stabile Top-Docs aktiviert, sieht 30 bis 60 Prozent Kostenreduktion innerhalb der ersten Abrechnungsperiode. Das ist ein Engineering-Tag mit hoeherem ROI als die meisten anderen Optimierungen.

Was ist der typische Single-Failure-Punkt im TCO-Modell? Block 4 (Wartung). Wer den nicht einplant, hat in 6 Monaten ein Eval-Set, das nicht mehr stimmt, und einen Agenten, dem niemand vertraut. Das ist nicht ein Kostenrisiko, sondern ein Existenzrisiko fuer das Projekt.

Quellen

Anthropic API Pricing, Stand Mai 2026: anthropic.com
OpenAI API Pricing, Stand Mai 2026: openai.com/pricing
Google Gemini API Pricing, Stand Mai 2026: ai.google.dev
Pinecone Pricing, Stand Mai 2026: pinecone.io/pricing
BAFA Unternehmensberatungs-Foerderung, Stand Mai 2026: bafa.de
BMWE Mittelstand-Digital, Stand Mai 2026: bundeswirtschaftsministerium.de

Naechster Schritt

Wir machen ein TCO-Modell fuer deinen konkreten Use-Case. 1 Tag Discovery, ein quantifiziertes Modell mit deinen Volumen-Annahmen, ein klarer Break-Even-Plan fuer den CFO. Kein Vorlagen-Template, sondern dein konkreter Fall.

Termin buchen.