Technik-Deep-Dive

Für alle, die verstehen wollen was im Hintergrund läuft. Nicht Pflicht zu wissen, aber nützlich um einzuordnen, warum KI manchmal Dinge tut, die auf den ersten Blick seltsam wirken.

Was ist ein Token

Ein Token ist die kleinste Texteinheit, mit der KI-Modelle rechnen. Ungefähr ein Wortteil. Die Faustregel: 1.000 Tokens ≈ 750 deutsche Wörter (im Englischen sind’s etwa 800 Wörter — deutsche Wörter sind oft länger und werden in mehrere Tokens zerlegt).

Jede Anfrage an das Modell verbraucht Tokens — sowohl für das was ihr reinschickt (Input) als auch für das was die KI zurückgibt (Output). Je länger eure Anfrage und je länger die Antwort, desto mehr Tokens.

Beispielrechnung:

Ihr schickt einen Prompt mit 200 Wörtern ≈ 270 Input-Tokens. Die KI antwortet mit 500 Wörtern ≈ 670 Output-Tokens. Gesamtverbrauch: 940 Tokens.

Bei einem Premium-Modell (z. B. GPT-5.4) kostet das etwa 30× so viel wie bei einem Light-Modell (Haiku). Deswegen die Kostenklassen in Presets.

Context Window — wie viel “Gedächtnis” die KI hat

Jedes Modell hat ein begrenztes “Context Window” — die maximale Menge an Text, die es in einer Konversation verarbeiten kann. Alles was darüber hinaus geht, vergisst es oder kann es nicht einbeziehen.

Modell-Klasse	Typische Context-Länge	Praktischer Umfang
Haiku, GPT-mini, Flash-Lite	ca. 128k Tokens	~300 Seiten Text
Sonnet, GPT-5.3	ca. 200k Tokens	~500 Seiten Text
Opus, GPT-5.4	ca. 200k Tokens	~500 Seiten Text
Gemini 3.1 Pro	bis zu 2 Mio. Tokens	~5.000 Seiten Text

Für den typischen Gebäudewirtschafts-Alltag (einzelne Dokumente, Chat-Verläufe, Verträge bis 30 Seiten) sind das sehr ausreichende Mengen. Nur bei extrem langen PDFs (Verdichtungspläne, 200-seitige Bebauungsplan-Gutachten) lohnt sich Gemini.

Temperature — wie “kreativ” das Modell antwortet

Temperature ist ein Parameter zwischen 0 und 2, der steuert, wie deterministisch oder kreativ ein Modell antwortet. Niedrig (0.0-0.3) = präzise, wiederholbar, sachlich. Hoch (1.0-1.5) = kreativer, variationsreicher, ideenreicher. Über 1.5 wird’s meist unbrauchbar.

Temperature	Effekt	Wann sinnvoll
0.0 - 0.3	Präzise, deterministisch, sachlich	Faktenfragen, Rechtsberatung, Formelanwendungen, Extraktion aus Dokumenten
0.5 - 0.7	Ausgewogen, Standard	Die meisten Aufgaben, normale Textarbeit
0.8 - 1.2	Kreativ, variationsreich	Brainstorming, Ideation, Marketing-Texte
> 1.3	Unzuverlässig, oft unbrauchbar	Nicht produktiv nutzen

Die Presets auf der Plattform haben die Temperature bereits passend eingestellt. Allrounder, Texter, Kundenservice liegen bei 0.5-0.7; Analyst bei 0.3 (weil Fakten gewünscht); Kreativ bei 0.9.

Als normaler Nutzer müsst ihr die Temperature nie selbst ändern. Wer es doch will: erweiterte Einstellungen öffnen, nur mit Verständnis was passiert.

Halluzinationen — wenn die KI Fakten erfindet

Der technische Begriff für den Fall, dass eine KI etwas behauptet, was nicht stimmt — eine Paragraphen-Nummer erfindet, einen nicht existierenden Paragraph zitiert, Zahlen falsch angibt, nicht existierende Urteile erwähnt. Das passiert, weil Sprachmodelle nicht “wissen”, sondern statistisch wahrscheinliche Fortsetzungen erzeugen.

Wann Halluzinationen häufig sind

Spezifische Rechtsnormen — besonders in exotischen Spezialgebieten (Bergbaurecht, Wasserverbandsgesetze, seltene Verwaltungsvorschriften). Die KI kann einen Paragraphen mit plausibel klingender Nummer erfinden.
Zahlen ohne Quelle — Förderrichtlinien mit konkreten Prozentsätzen, Schwellenwerte, Fristen. KI rundet, vertauscht, oder erfindet.
Namen und Personen — Biographische Details von weniger bekannten Personen.
Detaillierte Gerichtsurteile — Aktenzeichen, Kammern, Entscheidungsgründe.

Wie ihr Halluzinationen erkennt

Zu präzise Angaben ohne Quelle. Wenn die KI ”§ 42a Abs. 3 Satz 2 GemO NRW” zitiert und euch kein Bezug zur konkreten Textstelle nennt — prüfen.
Zu runde Zahlen oder zu exakte Zahlen. Bei “25 %” und “exakt 37,5 %” gleichermaßen Skepsis.
“Gerichtsentscheidung X gegen Y” ohne Aktenzeichen — fast immer halluziniert.
Aussagen mit Absolutheitsanspruch in juristischen Grauzonen (“Das ist eindeutig unzulässig”). Echtes Recht ist selten eindeutig.

Wie ihr Halluzinationen reduziert

Im System-Prompt ergänzen: “Bei Unsicherheit: Hinweis statt raten.”
Explizit fordern: “Nenne nur Paragraphen, die du sicher kennst. Bei Unsicherheit schreibe ‘unklar’.”
Reasoning-Modelle nutzen (o3) für rechtliche Fragen.
Web-Recherche nutzen (Rechercheur-Preset) für aktuelle Fakten.
Immer gegenprüfen — Paragraphen, Urteile, Fördersummen in der Originalquelle.

System-Prompt, User-Prompt, Tool-Calls — was passiert im Hintergrund

Wenn ihr eine Frage stellt, sendet die Plattform im Hintergrund nicht nur euren Text an das Modell, sondern:

System-Prompt der Plattform — definiert das Preset (“Du bist Allrounder, antworte auf Deutsch…”)
Euer persönlicher System-Prompt — euer Rolle/Stil-Setting
Ordner-System-Prompt — falls ihr in einem Ordner arbeitet
Datum-Injector — aktuelles Datum und Wochentag
Chat-Historie — vorherige Fragen/Antworten in diesem Chat
Knowledge — Inhalte aus hochgeladenen Dokumenten, wenn der Chat darauf zugreift
Euer aktueller Prompt — was ihr gerade tippt

All das geht als ein großer Kontext ans Modell. Das Modell sieht das zusammen und erzeugt eine Antwort. Deshalb ist der persönliche System-Prompt so mächtig: er wird wirklich jedem Prompt vorangestellt.