Daaniyal Khan – Strategieberatung | KI & Digitalisierung DACH

Es gibt eine Frage, die in jedem zweiten Strategie-Gespräch der letzten 18 Monate aufkam — meist von Geschäftsführern, oft hinter vorgehaltener Hand, manchmal von Vorständen, die KI-Budgets im sechsstelligen Bereich freigegeben hatten: „Kannst du mir eigentlich mal in einfachen Worten erklären, was ein LLM technisch tut?"

Das ist nicht peinlich. Es ist verbreitet — und es ist die häufigste Ursache für Fehlinvestitionen im KI-Bereich. Wer eine Technologie nicht versteht, kauft sie nach Bauchgefühl, nach Empfehlung, nach dem schönsten Deck. Genau das verkaufen die meisten Anbieter.

Dieser Artikel erklärt LLMs ohne Mathematik, ohne Buzzwords und mit dem konkreten Wissen, das Sie brauchen, um Anbieter zu prüfen, Investitionen zu rechtfertigen und realistische Erwartungen an Pilotprojekte zu formulieren.

Was ein LLM technisch ist — in einem Satz

Ein Large Language Model ist eine Funktion, die zu einem gegebenen Text-Input vorhersagt, welches Wort statistisch am wahrscheinlichsten als Nächstes folgt. Mehr nicht.

Wenn Sie einem LLM den Satzanfang „Die Hauptstadt von Deutschland ist" geben, berechnet es nicht „Wahrheit". Es berechnet Wahrscheinlichkeiten über sein Vokabular: „Berlin" mit beispielsweise 94 %, „Hamburg" mit 0,3 %, „München" mit 0,1 %, und so weiter über 100.000 möglicher Wörter. Dann wählt es eines aus — meist das wahrscheinlichste, manchmal kontrolliert per Zufall einen weniger wahrscheinlichen Kandidaten („Temperature").

Das ist die gesamte Maschine. Alles, was Sie ein LLM tun sehen — Texte schreiben, Code generieren, Verträge zusammenfassen, Fragen beantworten — ist eine Aneinanderreihung dieser Nächstes-Wort-Vorhersagen.

Wie kommt aus „nächstes Wort vorhersagen" so etwas wie Reasoning?

Das ist die eigentlich erstaunliche Erkenntnis der letzten fünf Jahre — und sie überrascht selbst die Forscher, die die Modelle bauen. Wenn Sie ein neuronales Netz auf einer ausreichend großen Menge Text trainieren (Größenordnung: das gesamte öffentlich verfügbare Internet plus Bücher, wissenschaftliche Artikel, Code), passieren ab einer bestimmten Schwelle Dinge, die niemand explizit eingebaut hat:

Das Modell beginnt, einfache mathematische Aufgaben zu lösen — nicht weil es rechnen gelernt hat, sondern weil es Muster gesehen hat, in denen Rechenaufgaben mit Lösungen erscheinen.
Es übersetzt zwischen Sprachen, die es nie als Übersetzungs-Paare gesehen hat, weil es die strukturelle Ähnlichkeit erkennt.
Es führt mehrstufige logische Schlüsse durch, weil es ähnliche Schlussketten in seinen Trainingsdaten gesehen hat.

Das ist emergentes Verhalten. Es entsteht aus der Skalierung, nicht aus expliziter Programmierung. Das ist auch der Grund, warum LLMs nicht deterministisch debuggt werden können wie klassische Software. Wenn ein LLM die falsche Antwort gibt, gibt es keine Code-Zeile, die Sie korrigieren könnten.

Die Transformer-Architektur — warum sie das mit 100 Wörtern erklärt ist

Bis 2017 versuchten alle Sprachmodelle, Sätze sequenziell zu verarbeiten: Wort 1, dann Wort 2, dann Wort 3. Das war langsam und verlor Kontext über lange Distanzen.

Die Transformer-Architektur (2017 in einem Google-Paper namens „Attention Is All You Need" vorgestellt) ändert das Prinzip: Sie verarbeitet alle Wörter parallel und berechnet für jedes Wort, wie stark es auf jedes andere Wort im Kontext achten sollte. Das ist der „Attention"-Mechanismus.

Effekt: Das Modell kann in einem 100.000-Wörter-Dokument Querverbindungen zwischen Wort 12 und Wort 87.423 herstellen, ohne den Kontext zu verlieren. Genau diese Fähigkeit macht die moderne KI möglich. Alles, was Sie heute unter ChatGPT, Claude, Gemini, Llama subsummieren — sind Transformer-Architekturen, unterschiedlich groß, unterschiedlich trainiert.

Sie brauchen das nicht im Detail zu verstehen. Aber Sie sollten wissen: Wenn ein Anbieter Ihnen erzählt, sein Modell sei „revolutionär neu" — fragen Sie, ob es eine Transformer-Architektur ist. Die Antwort ist mit 99,5 % Wahrscheinlichkeit Ja. Das Adjektiv „revolutionär" verliert dann seine Bedeutung.

Was LLMs strukturell nicht können — und nie können werden

Hier liegt der wichtigste Teil dieses Artikels. Denn das Verständnis der Grenzen ist im Geschäftskontext deutlich wertvoller als das Verständnis der Fähigkeiten — es schützt vor genau den Fehlinvestitionen, die Sie auf jeder zweiten Konferenz vorgeführt bekommen.

Grenze 1: Kein Wissen nach dem Trainings-Cutoff

Jedes LLM hat einen Trainings-Cutoff — ein Datum, nach dem es nichts mehr weiß. Für die meisten Modelle Anfang 2026 liegt dieser zwischen Mitte 2024 und Anfang 2025. Wenn Sie ein LLM nach einem Ereignis fragen, das nach diesem Cutoff stattfand, wird es entweder ehrlich sagen „weiß ich nicht" oder — und das ist das gefährliche — eine plausibel klingende, frei erfundene Antwort generieren.

Das ist keine Bösartigkeit. Das System kennt den Unterschied zwischen „weiß ich" und „weiß ich nicht" technisch nicht. Es berechnet immer nur Wahrscheinlichkeiten. Bei einer Frage zu einem unbekannten Thema generiert es das Wahrscheinlichste, was plausibel klingt.

Lösung im Geschäftskontext: RAG (Retrieval-Augmented Generation) und Tool-Use. Das LLM holt sich aktuelle Information aus einer Datenbank, einer Websuche, einem API-Call — bevor es antwortet. Wer das nicht einbaut, bekommt ein Modell, das fröhlich die Marktkapitalisierung eines Unternehmens vom Q3 2024 als „aktuell" präsentiert.

Grenze 2: Keine echte Mathematik, kein echtes Rechnen

LLMs können einfache Mathematik machen, weil sie viele Beispiele gesehen haben. Aber sie rechnen nicht — sie ahnen das Ergebnis. Bei „17 + 32" funktioniert das fast immer. Bei „1.847 × 9.231" wird es schon kritisch. Bei einer mehrstufigen Steuer-Berechnung oder einer DCF-Bewertung sollten Sie sich nie auf das unmittelbare Rechen-Output verlassen.

Lösung: Tool-Use. Das Modell schreibt den Rechen-Schritt als Code (Python, JavaScript), führt ihn aus, übernimmt das Ergebnis. Alle modernen Frontier-Modelle können das, wenn man es ihnen als Tool zur Verfügung stellt. Bei einer reinen Chat-Schnittstelle ohne Tool-Integration: Vorsicht.

Grenze 3: Keine Wahrheits-Prüfung

Ein LLM hat kein Konzept von „Wahrheit". Es hat ein Konzept von „statistisch wahrscheinlich". Das ist eine fundamental andere Sache. Wenn in den Trainingsdaten zu einem Thema viele plausible, aber falsche Aussagen kursierten — das Modell wird sie reproduzieren, ohne zu zucken.

Konsequenz für die Praxis: Bei jedem Output, der faktische Behauptungen enthält und business-kritisch ist, muss eine unabhängige Validierung stattfinden. Entweder durch Menschen, durch automatisierte Faktencheck-Pipelines, oder durch Cross-Referencing mit verifizierten Quellen. Wer das nicht tut, riskiert Schäden, die deutlich teurer sind als der gesparte Validierungs-Aufwand.

Grenze 4: Kein Gedächtnis zwischen Sitzungen

Das Standard-LLM vergisst beim Schließen des Chat-Fensters alles. Das nächste Gespräch beginnt bei Null. Das ist ein architektonischer Standard, kein Bug. Was Sie als „Memory" oder „Personalisierung" beworben sehen (ChatGPT-Memory, Claude-Projects, Gemini-Gems), ist immer ein zusätzlicher Layer: Das System speichert separat Kontext-Schnipsel und gibt sie dem Modell als Input mit, bevor das eigentliche Gespräch beginnt.

Implikation: Wenn Ihre Anwendung „Wissen über Kunden" haben soll — Sie müssen das System bauen, das dieses Wissen speichert, abruft und in den Prompt einspeist. Das LLM allein kann das nicht. Pillar P7 dieser Serie geht in die Tiefe.

Grenze 5: Kein Bewusstsein, keine Intention, kein Verständnis

Das ist die unbequemste Wahrheit für alle, die mit LLMs arbeiten und phasenweise das Gefühl haben, mit einem Wesen zu kommunizieren. Es gibt nach allem, was die Forschung aktuell weiß, kein Bewusstsein. Kein Verstehen im menschlichen Sinn. Keine Intention. Das System produziert plausible Wortfolgen — nichts mehr.

Warum das im Geschäftskontext wichtig ist: Wenn Sie ein LLM für Entscheidungen einsetzen, die ethische oder juristische Konsequenzen haben (Personalauswahl, Kreditvergabe, Vertrags-Bewertung), gibt es kein „Ich habe das so entschieden, weil...". Es gibt nur statistische Muster. Die EU AI Act kategorisiert solche Anwendungen explizit als Hochrisiko — mit guten Gründen. Pillar P11 dieser Serie vertieft das.

Halluzinationen — warum sie strukturell sind und nie verschwinden

„Halluzination" ist der Fachbegriff dafür, wenn ein LLM mit voller Überzeugung falsche Fakten produziert. Quellenangaben zu Studien, die nicht existieren. Zitate von Personen, die nie etwas Ähnliches gesagt haben. Paragraphen-Verweise auf Gesetzesabschnitte, die es nicht gibt. Das passiert systematisch und es wird nie ganz verschwinden.

Der Grund liegt in der Architektur selbst. Das Modell ist auf „plausibel" optimiert, nicht auf „wahr". Plausibilität ist eine statistische Eigenschaft des Trainings-Korpus. Wahrheit ist eine Eigenschaft der Welt. Diese beiden überschneiden sich oft, aber nicht immer — und an genau den Stellen, wo sie nicht überschneiden, halluziniert das Modell mit voller Überzeugung.

Was reduziert Halluzinationen?

Größere Modelle halluzinieren weniger als kleinere, aber nicht null.
Bessere Trainingsdaten (kuratiert, faktencheck-orientiert) helfen.
RAG mit verlässlichen Quellen ist der wirksamste Hebel — das Modell zitiert aus eingespielten Quellen statt aus seinem internen „Gedächtnis".
Tool-Use für Faktenchecks — das Modell prüft Behauptungen via Websuche oder Datenbank-Lookup, bevor es sie in die Antwort schreibt.

Was reduziert Halluzinationen nicht?

„Ein neues Modell" zu kaufen, ohne die Pipeline zu verbessern.
Den Prompt um „bitte halluziniere nicht" zu ergänzen. Das hilft minimal und ist kein robuster Schutz.
Auf den nächsten Tech-Sprung zu warten, der das Problem „löst". Das wird nicht passieren — es ist strukturell.

Was das für Ihre Investitionsentscheidung heißt

Wenn Sie diese fünf Grenzen verstanden haben, sind Sie schon deutlich besser positioniert als 80 % der Entscheider in deutschen Mittelstandsgesprächen. Konkret heißt das für anstehende KI-Investitionen:

Erstens: Fragen Sie jeden Anbieter, wie sein System mit Halluzinationen umgeht. Wenn die Antwort lautet „unsere KI halluziniert nicht" — Sie sprechen mit jemandem, der die Technik nicht versteht oder bewusst Marketing macht. Beide sind keine Vertragspartner für business-kritische Workloads.

Zweitens: Verlangen Sie für jeden Use-Case eine klare Aussage, wo Tool-Use, RAG oder externe Validierung im Spiel sind. Ein reiner „Chat mit dem LLM"-Setup für faktische Fragen ist 2026 unprofessionell. Die Tools dafür existieren — sie müssen nur eingebaut werden.

Drittens: Akzeptieren Sie, dass jede LLM-basierte Anwendung in den ersten 6-12 Monaten eine Human-in-the-Loop-Komponente braucht. Die KI generiert, ein Mensch validiert. Vollautomatisierung kommt — aber nicht im ersten Pilot. Wer das Gegenteil verspricht, verkauft Risiko.

Viertens: Investieren Sie in interne Prompt-Engineering-Kompetenz. Das ist günstiger und effektiver als der nächste Modell-Upgrade. Pillar P5 dieser Serie geht in die Tiefe.

Fünftens: Trennen Sie scharf zwischen Use-Cases, in denen Plausibilität ausreicht (Erste Entwürfe, Brainstorming, Schreibhilfe) und solchen, in denen Wahrheit zwingend ist (Rechtsfragen, Steueroptimierung, Finanzentscheidungen). LLMs sind im ersten Bereich brilliant. Im zweiten brauchen sie zwingend zusätzliche Architektur — und manchmal sind sie auch dort schlicht das falsche Werkzeug.

Die ehrliche Zusammenfassung

Ein LLM ist eine extrem nützliche Statistik-Maschine, die plausible Wortfolgen produziert. Es ist nicht intelligent im menschlichen Sinn, hat kein Wissen über die Welt nach seinem Trainings-Cutoff, kann nicht zuverlässig rechnen, hat kein Wahrheits-Konzept und kein Gedächtnis zwischen Sitzungen. Es halluziniert strukturell.

Trotzdem ist es eine der nützlichsten Erfindungen der letzten Jahrzehnte — wenn Sie wissen, was Sie tun. Diese fünf Grenzen zu kennen, ist die Eintrittsschwelle. Alles darüber ist Optimierung.

Wer das versteht, kauft keine KI mehr nach Folien-Schönheit. Er kauft sie nach Architektur, nach Faktencheck-Layer, nach Tool-Integration, nach Validierungs-Konzept. Das ist genau das Setup, das 2026 funktioniert — und das, was die meisten Anbieter nicht anbieten, weil es länger dauert und teurer ist als ein ChatGPT-Wrapper mit hübschem Frontend.

Weiterführende Quellen: Das Original-Paper zur Transformer-Architektur ist Vaswani et al. 2017 (Attention Is All You Need). Für Halluzinations-Forschung empfiehlt sich die laufende Halluzinations-Survey von Huang et al. Für eine tiefere technische Einführung ohne Mathematik: Anthropic Research-Hub.