Agentic AI in 7 Begriffen: das einzige Glossar, das ein DACH-Mittelstands-GF 2026 braucht
Agentic AI, LLM-Agent, RAG, Eval-Set, MCP, Guardrails, Human-in-the-Loop. 7 Begriffe, jeder in 60 Sekunden, mit DACH-Mittelstand-Beispiel und konkretem Naechster-Schritt.
ChatGPT war 2024. Agentic AI ist 2026. Hier sind die 7 Begriffe, die du in deiner naechsten GF-Runde kennen musst, sonst sitzt du im Wartesaal, waehrend dein Wettbewerber rollt. Jeder Begriff in 60 Sekunden, mit DACH-Mittelstand-Beispiel und konkretem Naechster-Schritt. Bei Sentient Dynamics bauen wir agentische Systeme im Mittelstand, und dieser Beitrag ist die Sprach-Basis, die wir vor jedem Pilot mit dem Fuehrungsteam abgleichen.
Warum 7 Begriffe genug sind
Du musst weder die Mathematik hinter einem Transformer verstehen noch wissen, wie ein Vector-Index intern indexiert. Du musst aber unterscheiden koennen, ob dein Anbieter dir gerade ein Chatbot-Skript oder eine echte agentische Loesung verkauft, ob seine Datenschutz-Antwort solide ist, und ob die ROI-Story Hand und Fuss hat. Dafuer reichen 7 Begriffe. Mehr ist Beraterspeak, weniger ist gefaehrlich.
Die kurze Form, bevor wir tief gehen:
| Begriff | In einem Satz |
|---|---|
| Agentic AI | KI-System, das Tools nutzt, mehrstufig handelt, eigene Entscheidungen trifft |
| LLM-Agent | Konkrete Implementierung: System-Prompt, Tools, Memory, Loop |
| RAG | Retrieval-Augmented Generation, wie KI auf eure Datenbank zugreift |
| Eval-Set | Test-Faelle mit erwarteter Antwort, womit ihr Qualitaet messt |
| MCP | Model Context Protocol (Anthropic 2024), Tool-Standard fuer LLM-Agents |
| Guardrails | Schutzschicht zwischen LLM-Output und Production |
| Human-in-the-Loop | Aufsichts-Mechanismus fuer kritische Entscheidungen |
1. Agentic AI: was Mitarbeiter automatisch tun, jetzt durch Software
Agentic AI ist die kuerzeste Definition, mit der du in einer GF-Runde nicht falsch liegst: ein KI-System, das ein Ziel bekommt, dafuer selbststaendig Tools nutzt, mehrere Schritte plant und seine Entscheidung am Ende abliefert. Kein Klicken durch Menues, kein Mensch, der jeden Schritt freigibt.
Das DACH-Beispiel, an dem es jeder versteht: ein Customer-Support-Agent bekommt eine Kundenanfrage zu einer Reklamation. Er liest die Anfrage, zieht die Bestellhistorie aus dem ERP, prueft den Garantie-Status in der Produktdatenbank, formuliert eine Antwort, bietet einen Gutschein-Code an, und eskaliert nur dann an einen Menschen, wenn der Schaden ueber 500 Euro liegt. Ein klassischer Chatbot kann das nicht, weil ihm Tools und Mehrstufigkeit fehlen. Ein Agentic-AI-System schon.
Was du als GF mitnehmen sollst: wenn dein Anbieter sagt "wir bauen Agentic AI" und dir am Ende ein FAQ-Chatbot liefert, ist es kein Agentic AI. Frag konkret nach: welche Tools nutzt der Agent, welche Entscheidungen trifft er ohne Mensch, wie viele Schritte plant er voraus, und was passiert, wenn ein Schritt fehlschlaegt. Wenn dein Anbieter auf die letzte Frage keine klare Antwort hat, hat er noch keinen Agenten in Production betrieben. Wir haben das Thema im Crashkurs zu Agentic AI fuer Geschaeftsfuehrer ausfuehrlich aufgeschluesselt.
2. LLM-Agent: der konkrete Bauplan
Agentic AI ist das Konzept, LLM-Agent ist die konkrete Implementierung. Anthropic hat das Muster in Building Effective Agents als kanonischen Frame beschrieben, und es besteht aus genau vier Bausteinen.
System-Prompt: die schriftliche Rolle und Verhaltensregel fuer den Agenten ("Du bist ein Reklamations-Agent fuer SHD Solutions. Du eskalierst bei Schaeden ueber 500 Euro."). Tools: konkrete Funktionen, die der Agent aufrufen kann (ERP-Lookup, Mail-Versand, Ticket-Erstellung). Memory: Zustand zwischen den Schritten, damit der Agent weiss, was er bereits getan hat. Loop: die Schleife, in der das LLM denkt, ein Tool waehlt, das Ergebnis liest, weiterdenkt, und am Ende abliefert.
Was du als GF mitnehmen sollst: jedes serioese Angebot beschreibt dir diese vier Bausteine konkret. Wenn dein Anbieter um den heissen Brei redet und stattdessen von "intelligenter Plattform" spricht, ist das Marketing, kein Bauplan. Verlange das Architektur-Bild auf einer A4-Seite, mit den vier Bausteinen, den konkreten Tool-Namen und der Loop-Beschreibung. Wer das nicht liefern kann, hat es nicht gebaut.
3. RAG: wie KI auf eure Daten zugreift, ohne sie zu speichern
RAG steht fuer Retrieval-Augmented Generation, und der Begriff ist deshalb wichtig, weil er deine zwei groessten Sorgen aufloest: erstens, das LLM weiss nichts ueber eure internen Daten, und zweitens, ihr wollt eure Daten nicht in fremden Modellen verschwinden lassen.
Der Trick: ihr legt eure Dokumente (SharePoint, Confluence, ERP-Reports) in eine Vector-Datenbank. Wenn der Agent eine Frage bekommt, sucht er erst in der Vector-Datenbank nach den passenden Stellen, packt sie in den Prompt, und das LLM antwortet auf Basis dieser Stellen. Eure Daten bleiben in eurer Datenbank, das LLM sieht immer nur den aktuell relevanten Ausschnitt, und ihr koennt jederzeit nachvollziehen, welche Quelle die Antwort gestuetzt hat.
DACH-Beispiel: ein Mittelstaendler hat 12 Jahre Angebots-Historie auf SharePoint. Statt ein eigenes Modell zu trainieren (zu teuer, zu langsam), packt er die Angebote in eine Vector-DB. Der Vertriebs-Agent zieht jetzt bei jeder neuen Anfrage drei vergleichbare Altangebote, schlaegt Preise vor, und nennt die Quelle. Kein Fine-Tuning, kein Daten-Leak, vier Wochen bis Pilot.
Was du als GF mitnehmen sollst: wenn dein Anbieter dir Fine-Tuning auf euren Daten vorschlaegt, frag erst nach, warum nicht RAG. In 80 Prozent der Mittelstands-Use-Cases ist RAG die richtige Antwort, billiger, schneller, datenschutz-freundlicher.
4. Eval-Set: wie ihr messt, ob die KI gut genug ist
Hier scheitern die meisten Pilot-Projekte, und deshalb ist der Begriff so wichtig. Ein Eval-Set ist eine Sammlung von Test-Faellen mit erwarteter Antwort. Im einfachsten Fall: 50 echte Kundenanfragen aus dem letzten Quartal, jede mit der "richtigen" Antwort, die euer bester Sachbearbeiter geben wuerde.
Bevor ihr in Production geht, lasst ihr den Agenten gegen das Eval-Set laufen. Trifft er 45 von 50 richtig, ist die Qualitaet hinreichend, trifft er 30 von 50, ist er nicht produktionsreif. Genauso wichtig: jedes Mal, wenn das Modell oder der System-Prompt geaendert wird, laeuft das Eval-Set erneut, und ihr seht sofort, ob die Aenderung Regressionen verursacht hat.
Wir haben in warum KI-Piloten nicht produktiv werden gezeigt: das fehlende Eval-Set ist die haeufigste Ursache fuer Pilot-Friedhoefe im DACH-Mittelstand.
Was du als GF mitnehmen sollst: im Pilot-Angebot muss ein Eval-Set stehen. Wer dir einen Pilot ohne Eval-Set verkauft, kann am Ende nicht beweisen, dass die Loesung funktioniert, und ihr habt vier Monate spaeter eine politische Diskussion statt einer Faktenlage.
5. MCP: warum Anthropic den USB-Standard fuer AI-Tools setzt
MCP steht fuer Model Context Protocol und wurde im November 2024 von Anthropic veroeffentlicht. Die Idee ist simpel: jedes LLM braucht Tools (Mail-Zugriff, CRM-Zugriff, Datenbank-Zugriff). Bisher musste jeder Anbieter sein eigenes Tool-Format bauen, und der Wechsel von OpenAI zu Anthropic oder umgekehrt war ein Migrations-Projekt.
MCP definiert ein standardisiertes Format, mit dem ein Tool einmal gebaut wird und an jeden MCP-kompatiblen LLM-Agenten andocken kann. OpenAI, Google und weitere LLM-Anbieter haben das Protokoll im Lauf von 2025 adoptiert, was MCP de-facto zum Industrie-Standard macht.
Warum dich das interessiert: weil es deine Vendor-Lock-In-Sorge reduziert. Wer heute auf MCP setzt, kann das LLM unter dem Agenten austauschen, ohne die Tool-Integrationen neu zu bauen. Genau die Frage, wer in zwei Jahren noch im Cockpit sitzt und wer sich seinen Stack neu kaufen muss, entscheidet sich an dieser Stelle. Frag deinen Anbieter, ob seine Tools MCP-kompatibel sind. Wenn nein, frag warum nicht.
6. Guardrails: die Schutzschicht zwischen LLM und Production
Ein LLM ist von Natur aus probabilistisch, und das heisst: es kann halluzinieren, gegen Compliance-Regeln verstossen, oder von einem boswilligen Nutzer in die Irre gefuehrt werden. Guardrails sind die Schutzschicht, die ihr zwischen LLM-Output und Production schaltet.
Drei Schichten in der Praxis. Input-Filter: pruefen, ob die Anfrage manipuliert ist (Stichwort Prompt-Injection, siehe Prompt-Injection-Schutz fuer KI-Agenten). Output-Filter: pruefen, ob die Antwort PII enthaelt, gegen Compliance verstoesst, oder ueber das Mandat des Agenten hinausgeht. Cost-Limits: harte Obergrenzen, damit ein durchgedrehter Agent nicht 10.000 Euro Token-Kosten in einer Nacht verbrennt.
Im DSGVO-Kontext ist die Output-Schicht besonders relevant, weil sie verhindert, dass Personenbezug aus dem RAG-Kontext unbeabsichtigt im Output landet. Wir haben das im Detail in DSGVO und Agentic AI in Production durchgespielt.
Was du als GF mitnehmen sollst: kein Production-Rollout ohne Guardrails. Wenn dein Anbieter sagt "das LLM antwortet ja eh sauber", hat er die letzten 24 Monate Vorfall-Logs nicht gelesen.
7. Human-in-the-Loop: wann der Mensch immer noch entscheidet
Human-in-the-Loop, kurz HITL, ist der Mechanismus, mit dem ein Mensch bei kritischen Entscheidungen die finale Freigabe behaelt. Nicht jede Entscheidung muss vom Menschen freigegeben werden, das wuerde den ROI eines Agenten zerstoeren. Aber bei den richtigen Entscheidungen ist HITL nicht optional, sondern Pflicht.
Ab 02.08.2026 verlangt die EU-AI-Verordnung (2024/1689) fuer Hochrisiko-Systeme nach Annex III explizit menschliche Aufsicht (Art. 14). Konkret betroffen: Bonitaetspruefung natuerlicher Personen (Annex III Nr. 5b), HR-Use-Cases wie Recruitment und Bewerbervorauswahl (Annex III Nr. 4), Bildung und Strafverfolgung. Wer das ab dem Stichtag ignoriert, riskiert Bussgelder von bis zu 15 Millionen Euro oder 3 Prozent des Konzernumsatzes (Art. 99 fuer Non-Compliance mit Hochrisiko-Pflichten).
Das DACH-Beispiel: ein KI-Agent bewertet eingehende Bewerbungen vor. Er darf eine Vorsortierung machen, er darf eine Empfehlung aussprechen, er darf aber nicht alleine eine Absage versenden. Die Absage geht durch den HR-Verantwortlichen, der das Ergebnis prueft und freigibt. Das ist nicht Bremse, das ist Compliance, und es ist gleichzeitig die einzige Antwort auf die Haftungsfrage. Wir haben sie in wer haftet, wenn der KI-Agent halluziniert ausfuehrlich beantwortet.
Was du als GF mitnehmen sollst: definiere mit deinem Anbieter im Pilot-Vertrag, an welchen Punkten ein Mensch entscheidet. Schreib es schwarz auf weiss in den Use-Case-Steckbrief. Sonst diskutiert ihr in der Produktivphase, wer was darf.
Wie diese 7 Begriffe in deinem ersten Pilot vorkommen
Wenn du in den naechsten 30 Tagen deinen ersten Agentic-AI-Pilot aufsetzen willst, kommen genau diese 7 Begriffe in genau dieser Reihenfolge vor. Du waehlst einen Use-Case (Agentic AI), beschreibst den Bauplan (LLM-Agent), bindest eure Daten an (RAG), definierst Qualitaets-Kriterien (Eval-Set), prueefst die Tool-Anbindung (MCP), baust Schutzschichten ein (Guardrails), und legst HITL-Punkte fest (Human-in-the-Loop).
Wir haben den kompletten Pfad als 30-Tage-Onboarding-Plan fuer den KI-Mittelstand dokumentiert. Wer die ersten 90 Tage bis zum produktiven Agenten plant, sollte zusaetzlich die Use-Case-Matrix fuer den ersten KI-Agenten lesen. Und falls dein Bauchgefuehl ist, dass dein Anbieter dir gerade Dinge verkauft, die nicht gehen, prueefe es gegen was KI-Agenten 2026 noch nicht koennen.
FAQ
Brauche ich als Geschaeftsfuehrer wirklich alle 7 Begriffe? Ja. Du musst sie nicht implementieren, du musst sie aber unterscheiden koennen. Sonst kaufst du beim falschen Anbieter zu, definierst die falschen KPIs, und unterschaetzt die Compliance-Pflicht.
Was ist der Unterschied zwischen Chatbot und Agentic AI? Ein Chatbot antwortet auf eine Frage mit Text. Ein Agentic-AI-System bekommt ein Ziel, nutzt Tools, plant mehrere Schritte und liefert ein Ergebnis. Wenn dein Anbieter "Chatbot" und "Agent" synonym verwendet, ist Vorsicht angesagt.
Warum ist MCP wichtig, wenn ich heute mit OpenAI starte? Weil du in 24 Monaten vielleicht zu Google oder Anthropic wechseln willst, oder einen lokalen LLM-Anbieter dazu nehmen willst. Wenn deine Tools MCP-konform gebaut sind, ist das ein Konfig-Wechsel statt ein Migrations-Projekt.
Wie viele Eval-Set-Faelle reichen fuer einen Pilot? 50 bis 100, kuratiert aus echten Faellen, mit eindeutiger Ground-Truth. Mehr ist schoen, weniger ist gefaehrlich. Wichtig ist, dass die Faelle die Bandbreite eurer realen Anfragen abbilden.
Quellen und naechster Schritt
Primary-Sources, die du jedem Anbieter zumuten darfst: Anthropic Building Effective Agents als kanonischer Frame fuer LLM-Agents, Anthropic Model Context Protocol Ankuendigung fuer MCP, EU AI Act Verordnung 2024/1689 fuer Human-in-the-Loop und Annex III.
Du willst wissen, welcher dieser 7 Begriffe deinen ersten Pilot triggert? Wir machen einen 1-Tages-Glossar-Workshop mit deinem Fuehrungsteam, mit konkretem Use-Case-Mapping und einem Pilot-Steckbrief am Ende des Tages. Termin buchen.
Über den Autor
Sebastian Lang
Co-Founder · Business & Content Lead
Co-Founder von Sentient Dynamics. 15+ Jahre Business-Strategie (u.a. SAP), MBA. Schreibt über AI-Act-Compliance, ROI-Messung und wie Mittelstand-CTOs agentische KI tatsächlich einführen.