Technik-Deep-Dive
Für alle, die verstehen wollen was im Hintergrund läuft. Nicht Pflicht zu wissen, aber nützlich um einzuordnen, warum KI manchmal Dinge tut, die auf den ersten Blick seltsam wirken.
Was ist ein Token
Ein Token ist die kleinste Texteinheit, mit der KI-Modelle rechnen. Ungefähr ein Wortteil. Die Faustregel: 1.000 Tokens ≈ 750 deutsche Wörter (im Englischen sind’s etwa 800 Wörter — deutsche Wörter sind oft länger und werden in mehrere Tokens zerlegt).
Jede Anfrage an das Modell verbraucht Tokens — sowohl für das was ihr reinschickt (Input) als auch für das was die KI zurückgibt (Output). Je länger eure Anfrage und je länger die Antwort, desto mehr Tokens.
Beispielrechnung:
Ihr schickt einen Prompt mit 200 Wörtern ≈ 270 Input-Tokens. Die KI antwortet mit 500 Wörtern ≈ 670 Output-Tokens. Gesamtverbrauch: 940 Tokens.
Bei einem Premium-Modell (z. B. GPT-5.4) kostet das etwa 30× so viel wie bei einem Light-Modell (Haiku). Deswegen die Kostenklassen in Presets.
Context Window — wie viel “Gedächtnis” die KI hat
Jedes Modell hat ein begrenztes “Context Window” — die maximale Menge an Text, die es in einer Konversation verarbeiten kann. Alles was darüber hinaus geht, vergisst es oder kann es nicht einbeziehen.
| Modell-Klasse | Typische Context-Länge | Praktischer Umfang |
|---|---|---|
| Haiku, GPT-mini, Flash-Lite | ca. 128k Tokens | ~300 Seiten Text |
| Sonnet, GPT-5.3 | ca. 200k Tokens | ~500 Seiten Text |
| Opus, GPT-5.4 | ca. 200k Tokens | ~500 Seiten Text |
| Gemini 3.1 Pro | bis zu 2 Mio. Tokens | ~5.000 Seiten Text |
Für den typischen Gebäudewirtschafts-Alltag (einzelne Dokumente, Chat-Verläufe, Verträge bis 30 Seiten) sind das sehr ausreichende Mengen. Nur bei extrem langen PDFs (Verdichtungspläne, 200-seitige Bebauungsplan-Gutachten) lohnt sich Gemini.
Temperature — wie “kreativ” das Modell antwortet
Temperature ist ein Parameter zwischen 0 und 2, der steuert, wie deterministisch oder kreativ ein Modell antwortet. Niedrig (0.0-0.3) = präzise, wiederholbar, sachlich. Hoch (1.0-1.5) = kreativer, variationsreicher, ideenreicher. Über 1.5 wird’s meist unbrauchbar.
| Temperature | Effekt | Wann sinnvoll |
|---|---|---|
| 0.0 - 0.3 | Präzise, deterministisch, sachlich | Faktenfragen, Rechtsberatung, Formelanwendungen, Extraktion aus Dokumenten |
| 0.5 - 0.7 | Ausgewogen, Standard | Die meisten Aufgaben, normale Textarbeit |
| 0.8 - 1.2 | Kreativ, variationsreich | Brainstorming, Ideation, Marketing-Texte |
| > 1.3 | Unzuverlässig, oft unbrauchbar | Nicht produktiv nutzen |
Die Presets auf der Plattform haben die Temperature bereits passend eingestellt. Allrounder, Texter, Kundenservice liegen bei 0.5-0.7; Analyst bei 0.3 (weil Fakten gewünscht); Kreativ bei 0.9.
Als normaler Nutzer müsst ihr die Temperature nie selbst ändern. Wer es doch will: erweiterte Einstellungen öffnen, nur mit Verständnis was passiert.
Halluzinationen — wenn die KI Fakten erfindet
Der technische Begriff für den Fall, dass eine KI etwas behauptet, was nicht stimmt — eine Paragraphen-Nummer erfindet, einen nicht existierenden Paragraph zitiert, Zahlen falsch angibt, nicht existierende Urteile erwähnt. Das passiert, weil Sprachmodelle nicht “wissen”, sondern statistisch wahrscheinliche Fortsetzungen erzeugen.
Wann Halluzinationen häufig sind
- Spezifische Rechtsnormen — besonders in exotischen Spezialgebieten (Bergbaurecht, Wasserverbandsgesetze, seltene Verwaltungsvorschriften). Die KI kann einen Paragraphen mit plausibel klingender Nummer erfinden.
- Zahlen ohne Quelle — Förderrichtlinien mit konkreten Prozentsätzen, Schwellenwerte, Fristen. KI rundet, vertauscht, oder erfindet.
- Namen und Personen — Biographische Details von weniger bekannten Personen.
- Detaillierte Gerichtsurteile — Aktenzeichen, Kammern, Entscheidungsgründe.
Wie ihr Halluzinationen erkennt
- Zu präzise Angaben ohne Quelle. Wenn die KI ”§ 42a Abs. 3 Satz 2 GemO NRW” zitiert und euch kein Bezug zur konkreten Textstelle nennt — prüfen.
- Zu runde Zahlen oder zu exakte Zahlen. Bei “25 %” und “exakt 37,5 %” gleichermaßen Skepsis.
- “Gerichtsentscheidung X gegen Y” ohne Aktenzeichen — fast immer halluziniert.
- Aussagen mit Absolutheitsanspruch in juristischen Grauzonen (“Das ist eindeutig unzulässig”). Echtes Recht ist selten eindeutig.
Wie ihr Halluzinationen reduziert
- Im System-Prompt ergänzen: “Bei Unsicherheit: Hinweis statt raten.”
- Explizit fordern: “Nenne nur Paragraphen, die du sicher kennst. Bei Unsicherheit schreibe ‘unklar’.”
- Reasoning-Modelle nutzen (o3) für rechtliche Fragen.
- Web-Recherche nutzen (Rechercheur-Preset) für aktuelle Fakten.
- Immer gegenprüfen — Paragraphen, Urteile, Fördersummen in der Originalquelle.
System-Prompt, User-Prompt, Tool-Calls — was passiert im Hintergrund
Wenn ihr eine Frage stellt, sendet die Plattform im Hintergrund nicht nur euren Text an das Modell, sondern:
- System-Prompt der Plattform — definiert das Preset (“Du bist Allrounder, antworte auf Deutsch…”)
- Euer persönlicher System-Prompt — euer Rolle/Stil-Setting
- Ordner-System-Prompt — falls ihr in einem Ordner arbeitet
- Datum-Injector — aktuelles Datum und Wochentag
- Chat-Historie — vorherige Fragen/Antworten in diesem Chat
- Knowledge — Inhalte aus hochgeladenen Dokumenten, wenn der Chat darauf zugreift
- Euer aktueller Prompt — was ihr gerade tippt
All das geht als ein großer Kontext ans Modell. Das Modell sieht das zusammen und erzeugt eine Antwort. Deshalb ist der persönliche System-Prompt so mächtig: er wird wirklich jedem Prompt vorangestellt.