Referenz

KI-Glossar

Die Begriffe der KI klar erklärt, ohne unnötigen Jargon und Marketing-Versprechen. 43 klare, überprüfbare Definitionen, um Joutes Vergleiche mühelos zu folgen.

Definierte Begriffe

Kategorien

147

Interne Links

Joute-Vokabular

Agentic Engineer

Ein Agentic Engineer entwirft und steuert KI-Agenten, statt jede Codezeile selbst zu schreiben: er definiert Aufgaben, Werkzeuge und Leitplanken und prüft das Ergebnis. Der Beruf verschiebt sich vom Tippen von Code hin zum Entwerfen und Prüfen dessen, was die KI erzeugt.

Siehe auchVibe Coding KI-Agent KI-IDE

Modelle & Architektur

Attention-Mechanismus

Attention erlaubt es einem Modell, beim Erzeugen jedes Worts zu gewichten, wie relevant jedes andere Wort im Kontext ist. Sie erfasst weitreichende Abhängigkeiten, die frühere Architekturen verfehlten. Ihr Rechenaufwand wächst mit dem Quadrat der Kontextlänge, weshalb sehr lange Kontexte teuer bleiben.

Siehe auchTransformer Kontextfenster Inferenz

Nutzung & Praxis

Benchmark

Ein Benchmark ist ein standardisierter Test, um Modelle bei Aufgaben wie Reasoning, Code oder Wissen zu vergleichen. Als Signal nützlich, aber mit Vorsicht zu lesen: Werte lassen sich manipulieren, und ein Benchmark trifft selten deinen echten Anwendungsfall.

Siehe auchLLM (großes Sprachmodell)Reasoning (Reasoning-Modelle)

Nutzung & Praxis

Bildgenerierung

Bildgenerierung erzeugt Visuals aus einer Textbeschreibung, meist über Diffusionsmodelle, die von zufälligem Rauschen ausgehen und es schrittweise entrauschen. Midjourney, Flux und Ideogram sind Beispiele. Knackpunkte bleiben Text im Bild, die Konsistenz einer Figur und das Urheberrecht an den Trainingsdaten.

Siehe auchMultimodal

Nutzung & Praxis

Chain-of-Thought (Gedankenkette)

Chain-of-Thought fordert ein Modell auf, sein Schlussfolgern vor dem Fazit Schritt für Schritt auszuformulieren, was Logik- und Rechenaufgaben verbessert. Reasoning-Modelle nutzen es intern und strukturiert. Hinweis: das angezeigte Schlussfolgern ist nicht immer der real gegangene Weg.

Siehe auchReasoning (Reasoning-Modelle)Prompt Few-Shot (und Zero-Shot)

Modelle & Architektur

Diffusionsmodell

Ein Diffusionsmodell erzeugt ein Bild oder Video, indem es von zufälligem Rauschen ausgeht und es Schritt für Schritt entrauscht, bis es zur Beschreibung passt. Seit Stable Diffusion ist es der dominierende Ansatz der Bildgenerierung. Es bietet starke Kontrolle, bleibt aber bei hoher Auflösung rechenintensiv.

Siehe auchBildgenerierung GAN (generatives gegnerisches Netz)Multimodal

Modelle & Architektur

Distillation

Distillation trainiert ein kleines Modell (den Schüler) darauf, die Ausgaben eines großen (des Lehrers) nachzuahmen. Das Ergebnis ist ein leichteres, schnelleres Modell, das einen Teil der Fähigkeiten des großen behält. Das ist ein Grund, warum neue kleine Modelle mit älteren, größeren mithalten.

Siehe auchParameter Inferenz Benchmark

Konzepte

Embedding

Ein Embedding wandelt einen Text in einen Zahlenvektor um, der seine Bedeutung erfasst, sodass ähnliche Texte nahe beieinander liegen. Es ist die Grundlage für semantische Suche, Empfehlungen und RAG. Es ist die Brücke zwischen Sprache und der Mathematik, die eine Maschine vergleichen kann.

Siehe auchRAG (retrieval-augmented generation)Inferenz

Nutzung & Praxis

Few-Shot (und Zero-Shot)

Few-Shot bedeutet, ein paar Beispiele der Aufgabe in den Prompt einzustreuen, um das Modell zu lenken, ohne es neu zu trainieren. Zero-Shot fragt die Aufgabe direkt ab, ohne Beispiel. Zwei oder drei gute Beispiele verbessern die Qualität oft deutlich, mit weniger Aufwand als ein Fine-Tuning.

Siehe auchPrompt Fine-Tuning Chain-of-Thought (Gedankenkette)

Modelle & Architektur

Fine-Tuning

Fine-Tuning setzt das Training eines bestehenden Modells auf einem gezielten Datensatz fort, um es auf einen Stil, eine Domäne oder eine Aufgabe zu spezialisieren. Es ist leichter als ein Training von Grund auf, verlangt aber dennoch gute Daten. Für Faktenwissen ist RAG oft günstiger und flexibler.

Siehe auchLLM (großes Sprachmodell)RAG (retrieval-augmented generation)Open Source (offene Gewichte)Obsoleszenz-Risiko

Nutzung & Praxis

Function Calling (Funktionsaufruf)

Function Calling lässt ein Modell ein externes Werkzeug (Websuche, Berechnung, API-Abfrage) über einen strukturierten Aufruf anfordern und das Ergebnis dann in seine Antwort einbinden. Es ist der Grundmechanismus von Agenten: es verbindet Sprache mit echten Aktionen. MCP standardisiert diese Anbindung an Werkzeuge.

Siehe auchKI-Agent MCP (Model Context Protocol)RAG (retrieval-augmented generation)

Modelle & Architektur

GAN (generatives gegnerisches Netz)

Ein GAN lässt zwei Netze gegeneinander antreten: einen Generator, der Bilder erzeugt, und einen Diskriminator, der Echt von Falsch zu unterscheiden versucht. Sie verbessern sich gegenseitig. Vor den Diffusionsmodellen dominierend, wird es weiter für Aufgaben wie Upscaling oder synthetische Gesichter genutzt.

Siehe auchDiffusionsmodell Bildgenerierung Multimodal

Infrastruktur

GPU

Eine GPU ist der Prozessor, der die parallele Mathematik hinter KI ausführt, dafür weit schneller als eine CPU. Ihre Knappheit und ihr Preis (Nvidia führt den Markt) bestimmen direkt, welche Modelle trainiert und betrieben werden können. Sie sind das Öl des aktuellen KI-Booms.

Siehe auchInferenz Open Source (offene Gewichte)

Nutzung & Praxis

Guardrails (Leitplanken)

Guardrails sind die Filter und Regeln, die rahmen, was ein Modell ausgibt: gefährliche Inhalte verweigern, Ausgaben validieren, die Aktionen eines Agenten begrenzen. In der Produktion nötig, aber unvollkommen, per Jailbreak oder Prompt-Injection umgehbar und mitunter so übereifrig, dass sie legitime Nutzungen blockieren.

Siehe auchJailbreak Prompt-Injection KI-Agent

Konzepte

Halluzination

Eine Halluzination ist eine plausible, aber falsche Aussage, die ein Modell mit voller Überzeugung ausgibt. Sie folgt aus der Funktionsweise der LLMs: sie sagen wahrscheinlichen Text voraus, nicht geprüfte Wahrheit. Das ist der Hauptgrund, jede Faktenaussage zu überprüfen.

Siehe auchLLM (großes Sprachmodell)RAG (retrieval-augmented generation)Obsoleszenz-Risiko

Infrastruktur

Inferenz

Inferenz ist das Ausführen eines Modells, um eine Antwort zu erhalten, im Gegensatz zum Training. Hier entstehen die Kosten pro Nutzung und die Latenz. Inferenz zu optimieren (Quantisierung, Caching, kleinere Modelle) ist zentral, um KI im großen Maßstab zu betreiben.

Siehe auchToken GPU LLM (großes Sprachmodell)

Konzepte

Jailbreak

Ein Jailbreak ist eine Prompt-Manipulation, die die Leitplanken eines Modells umgeht, um normalerweise blockierte Inhalte zu erzeugen. Die Techniken setzen oft auf Rollenspiele oder widersprüchliche Anweisungen. Anbieter stopfen diese Lücken laufend, doch LLM-Sicherheit bleibt ein offenes statt gelöstes Problem.

Siehe auchPrompt LLM (großes Sprachmodell)

Konzepte

KI-Agent

Ein KI-Agent ist ein LLM, das planen und handeln kann: es ruft Werkzeuge auf, führt Schritte aus und passt sich an Ergebnisse an, statt nur zu antworten. Coding-Agenten, Web-Agenten und Assistenten gehören dazu. Ihre Schwachstelle bleibt die Zuverlässigkeit über lange Schrittketten.

Siehe auchAgentic Engineer MCP (Model Context Protocol)Reasoning (Reasoning-Modelle)KI-IDE

Nutzung & Praxis

KI-IDE

Eine KI-IDE ist ein Code-Editor mit tief integrierter KI: Inline-Vervollständigung, Chat über die Codebasis und Agenten, die mehrere Dateien bearbeiten. Cursor, Windsurf und Co. gehören dazu. Hier spüren die meisten Entwickler den KI-Produktivitätsgewinn zuerst.

Siehe auchKI-Agent Vibe Coding MCP (Model Context Protocol)

Modelle & Architektur

Kontext

Der Kontext ist alles, was einem Modell in einem bestimmten Moment vorliegt: dein Prompt, der Gesprächsverlauf und bereitgestellte Dokumente. Darüber hinaus hat das Modell kein Gedächtnis. Alles außerhalb des Kontextfensters wird schlicht ignoriert.

Siehe auchToken LLM (großes Sprachmodell)RAG (retrieval-augmented generation)

Modelle & Architektur

Kontextfenster

Das Kontextfenster ist die maximale Textmenge in Token, die ein Modell auf einmal verarbeiten kann, Prompt und Antwort eingeschlossen. Es reicht von einigen Tausend bis über eine Million Token. Es ist kein Gedächtnis: was es verlässt, ist vergessen, und die Qualität sinkt oft in der Mitte sehr langer Eingaben.

Siehe auchKontext Token Attention-Mechanismus RAG (retrieval-augmented generation)

Infrastruktur

Latenz und Durchsatz

Latenz ist die Verzögerung bis zum ersten Wort einer Antwort; Durchsatz die Zahl der pro Sekunde erzeugten Token. Zusammen bestimmen sie das Nutzungsgefühl eines Assistenten und die Kosten im großen Maßstab. Ein größeres, klügeres, aber langsames Modell ist nicht immer die richtige Wahl für eine Echtzeitaufgabe.

Siehe auchInferenz GPU Quantisierung Mixture of Experts (MoE)

Modelle & Architektur

LLM (großes Sprachmodell)

Ein LLM ist ein neuronales Netz, das darauf trainiert wurde, über riesige Textmengen das nächste Wort vorherzusagen. Aus dieser einfachen Aufgabe entstehen Fähigkeiten zum Schreiben, Übersetzen und teilweisen Schlussfolgern. GPT, Claude und Gemini sind LLMs. Ein LLM greift nicht live auf eine Wissensdatenbank zu: es gibt wieder, was seine Parameter beim Training kodiert haben.

Siehe auchToken Kontext Halluzination Fine-Tuning Reasoning (Reasoning-Modelle)

Modelle & Architektur

LoRA (leichtes Fine-Tuning)

LoRA ist eine Fine-Tuning-Methode, die nur wenige hinzugefügte Parameter anpasst, statt das ganze Modell neu zu trainieren. Ein Modell an einen Stil oder eine Domäne anzupassen wird schnell und günstig, ohne Rechenzentrums-GPUs. Es ist der Standardweg, Open-Source-Bildmodelle anzupassen.

Siehe auchFine-Tuning Parameter Open Source (offene Gewichte)Diffusionsmodell

Infrastruktur

MCP (Model Context Protocol)

MCP ist ein offener Standard, der KI-Modelle über eine gemeinsame Schnittstelle mit externen Werkzeugen und Daten verbindet. Statt einer eigenen Integration pro Werkzeug spricht ein Modell MCP mit jedem kompatiblen Server. Es ist zur De-facto-Verkabelung für Agenten geworden.

Siehe auchKI-Agent KI-IDE

Modelle & Architektur

Mixture of Experts (MoE)

Ein MoE-Modell ist in spezialisierte Teilnetze, die Experten, aufgeteilt, von denen pro Anfrage nur wenige aktiv werden. Man erhält die Kapazität eines sehr großen Modells bei Inferenzkosten nahe einem kleineren. Mixtral und mehrere aktuelle Modelle nutzen diesen Ansatz.

Siehe auchParameter Inferenz Open Source (offene Gewichte)

Modelle & Architektur

Multimodal

Ein multimodales Modell verarbeitet mehrere Arten von Ein- oder Ausgaben wie Text, Bilder, Audio und Video in einem einzigen Modell. Es kann ein Foto beschreiben, ein Diagramm lesen oder aus einem Satz ein Bild erzeugen. Bei den neuesten Spitzenmodellen ist das die Norm.

Siehe auchLLM (großes Sprachmodell)Bildgenerierung

Nutzung & Praxis

No-Code & KI-App-Builder

No-Code erlaubt es, Software ohne Code über visuelle Oberflächen zu bauen. KI-App-Builder wie Lovable, Bolt oder v0 gehen weiter: du beschreibst die App in natürlicher Sprache und erhältst eine funktionierende Oberfläche. Die Grenze ist dieselbe wie beim Vibe Coding: nach dem Prototyp zählt das Beherrschen des Codes wieder.

Siehe auchVibe Coding KI-IDE

Joute-Vokabular

Obsoleszenz-Risiko

Ein Joute-Score, der bewertet, wie schnell ein Tool irrelevant werden kann, verschluckt von den nativen Funktionen eines Modells, einer Preisänderung oder einem stärkeren Konkurrenten. Je höher, desto vorsichtiger solltest du sein, dich langfristig auf das Tool zu verlassen.

Siehe auchLLM (großes Sprachmodell)Benchmark

Modelle & Architektur

Open Source (offene Gewichte)

Ein Modell mit offenen Gewichten hat frei herunterladbare Parameter, die du ausführen, feinjustieren und selbst hosten kannst. Es bietet eine Kontrolle und Privatsphäre, die geschlossene APIs nicht bieten. Lizenzen variieren, und wirklich offen heißt nicht immer frei für die kommerzielle Nutzung.

Siehe auchLLM (großes Sprachmodell)Fine-Tuning

Modelle & Architektur

Parameter

Parameter sind die internen Werte eines Modells, beim Training justiert, die sein Wissen kodieren. Sie werden in Milliarden gezählt (7B, 70B, 405B). Mehr Parameter bedeuten meist mehr Fähigkeiten, aber auch schwereres Rechnen. Ihre Zahl allein beurteilt ein Modell nicht: Daten- und Trainingsqualität zählen ebenso.

Siehe auchLLM (großes Sprachmodell)Transformer Quantisierung Benchmark

Nutzung & Praxis

Prompt

Ein Prompt ist die Anweisung, die du einem Modell gibst. Seine Formulierung prägt die Antwortqualität stark: ein präziser, kontextualisierter Prompt bringt weit mehr als ein vager. Prompt Engineering ist die Praxis, diese Anweisungen zu verfeinern.

Siehe auchLLM (großes Sprachmodell)KI-Agent Jailbreak

Nutzung & Praxis

Prompt-Injection

Prompt-Injection schleust bösartige Anweisungen in Inhalte ein, die ein Modell liest (eine Webseite, ein Dokument, eine E-Mail), um sein Verhalten zu kapern. Es ist die Hauptsicherheitslücke von Agenten, die externe Quellen durchsuchen und lesen. Eine vollständige Lösung gibt es bislang nicht, nur Abmilderungen.

Siehe auchJailbreak KI-Agent Guardrails (Leitplanken)RAG (retrieval-augmented generation)

Infrastruktur

Quantisierung

Quantisierung senkt die numerische Präzision der Modellparameter (etwa von 16 auf 4 Bit), um den Speicherbedarf zu verkleinern und die Inferenz zu beschleunigen. Sie lässt große Modelle auf bescheidener Hardware laufen, bei geringem Qualitätsverlust. Erst dadurch wird ein LLM lokal auf einem normalen PC machbar.

Siehe auchInferenz GPU Parameter Open Source (offene Gewichte)

Konzepte

RAG (retrieval-augmented generation)

RAG liefert einem Modell relevante, zur Anfragezeit abgerufene Dokumente, damit es aus deinen Daten antwortet statt nur aus dem Gedächtnis. Das reduziert Halluzinationen und erlaubt Quellenangaben. Die Qualität hängt vollständig vom Abrufschritt ab: schlechter Abruf, schlechte Antwort.

Siehe auchEmbedding Kontext Halluzination LLM (großes Sprachmodell)

Modelle & Architektur

Reasoning (Reasoning-Modelle)

Reasoning-Modelle investieren zusätzliche Rechenzeit, um ein Problem vor der Antwort Schritt für Schritt durchzuarbeiten, was Mathematik, Logik und Code verbessert. Sie sind langsamer und teurer und für einfache Aufgaben überdimensioniert. Ihr angezeigtes Reasoning ist nicht immer der real gegangene Weg.

Siehe auchLLM (großes Sprachmodell)KI-Agent Inferenz Benchmark

Modelle & Architektur

RLHF (Reinforcement Learning aus menschlichem Feedback)

RLHF richtet ein Modell an menschlichen Präferenzen aus: Annotatoren bewerten Antworten, und das Modell wird so justiert, dass es die besser bewerteten liefert. Dieser Schritt macht aus einem rohen, fähigen Modell einen hilfreichen, höflichen Assistenten. Er übernimmt auch die Verzerrungen derjenigen, die bewerten.

Siehe auchFine-Tuning LLM (großes Sprachmodell)Halluzination Reasoning (Reasoning-Modelle)

Nutzung & Praxis

Sampling (Top-p, Top-k)

Bei jedem Wort erzeugt ein LLM eine Wahrscheinlichkeitsverteilung über mögliche Token; das Sampling entscheidet, welches gewählt wird. Top-k begrenzt die Auswahl auf die k wahrscheinlichsten Token, Top-p (Nucleus) auf jene, die eine bestimmte Wahrscheinlichkeitsmasse abdecken. Mit der Temperatur steuern diese Einstellungen das Gleichgewicht aus Zuverlässigkeit und Vielfalt.

Siehe auchTemperatur Token Inferenz

Nutzung & Praxis

Temperatur

Die Temperatur steuert, wie zufällig die Antworten eines Modells sind. Niedrig macht sie die Ausgaben deterministisch und vorhersehbar, nützlich für Code oder Fakten. Hoch begünstigt sie Vielfalt und Kreativität, auf die Gefahr von Fehlern hin. Sie ist der einfachste Regler für das Verhalten eines LLM.

Siehe auchSampling (Top-p, Top-k)Prompt Halluzination

Modelle & Architektur

Token

Ein Token ist die Texteinheit, die ein Modell verarbeitet: ungefähr ein Wortfragment aus wenigen Zeichen. Preise und Kontextgrenzen werden in Token gezählt, nicht in Wörtern. Im Englischen entspricht ein Token im Schnitt etwa 4 Zeichen.

Siehe auchLLM (großes Sprachmodell)Kontext Inferenz

Modelle & Architektur

Transformer

Der Transformer ist die Netzarchitektur hinter fast jedem LLM seit 2017. Seine Neuerung ist der Attention-Mechanismus, der jedes Wort die Bedeutung aller anderen gewichten lässt. Das machte Training im großen Maßstab und lange Kontexte möglich. Das T in GPT steht für Transformer.

Siehe auchAttention-Mechanismus LLM (großes Sprachmodell)Parameter Kontextfenster

Infrastruktur

Vektordatenbank

Eine Vektordatenbank speichert Texte als Embeddings und ruft die einer Anfrage ähnlichsten per Ähnlichkeit ab. Sie ist die Suchmaschine hinter RAG: du indexierst Dokumente, um einem LLM später die relevanten Passagen zu liefern. Pinecone, Weaviate und pgvector sind Beispiele.

Siehe auchEmbedding RAG (retrieval-augmented generation)

Konzepte

Vibe Coding

Vibe Coding bedeutet, Software zu bauen, indem man in natürlicher Sprache beschreibt, was man will, und die KI den Code schreiben lässt, mit wenig manueller Prüfung. Top für Prototypen und Demos. Darüber hinaus wird das Verständnis des erzeugten Codes wieder nötig.

Siehe auchAgentic Engineer No-Code & KI-App-Builder KI-IDE KI-Agent