Joute
Referenz

KI-Glossar

Die Begriffe der KI klar erklärt, ohne unnötigen Jargon und Marketing-Versprechen. 43 klare, überprüfbare Definitionen, um Joutes Vergleiche mühelos zu folgen.

43
Definierte Begriffe
5
Kategorien
147
Interne Links
Joute-Vokabular

Agentic Engineer

Ein Agentic Engineer entwirft und steuert KI-Agenten, statt jede Codezeile selbst zu schreiben: er definiert Aufgaben, Werkzeuge und Leitplanken und prüft das Ergebnis. Der Beruf verschiebt sich vom Tippen von Code hin zum Entwerfen und Prüfen dessen, was die KI erzeugt.

Modelle & Architektur

Attention-Mechanismus

Attention erlaubt es einem Modell, beim Erzeugen jedes Worts zu gewichten, wie relevant jedes andere Wort im Kontext ist. Sie erfasst weitreichende Abhängigkeiten, die frühere Architekturen verfehlten. Ihr Rechenaufwand wächst mit dem Quadrat der Kontextlänge, weshalb sehr lange Kontexte teuer bleiben.

Nutzung & Praxis

Benchmark

Ein Benchmark ist ein standardisierter Test, um Modelle bei Aufgaben wie Reasoning, Code oder Wissen zu vergleichen. Als Signal nützlich, aber mit Vorsicht zu lesen: Werte lassen sich manipulieren, und ein Benchmark trifft selten deinen echten Anwendungsfall.

Nutzung & Praxis

Bildgenerierung

Bildgenerierung erzeugt Visuals aus einer Textbeschreibung, meist über Diffusionsmodelle, die von zufälligem Rauschen ausgehen und es schrittweise entrauschen. Midjourney, Flux und Ideogram sind Beispiele. Knackpunkte bleiben Text im Bild, die Konsistenz einer Figur und das Urheberrecht an den Trainingsdaten.

Siehe auchMultimodal
Nutzung & Praxis

Chain-of-Thought (Gedankenkette)

Chain-of-Thought fordert ein Modell auf, sein Schlussfolgern vor dem Fazit Schritt für Schritt auszuformulieren, was Logik- und Rechenaufgaben verbessert. Reasoning-Modelle nutzen es intern und strukturiert. Hinweis: das angezeigte Schlussfolgern ist nicht immer der real gegangene Weg.

Modelle & Architektur

Diffusionsmodell

Ein Diffusionsmodell erzeugt ein Bild oder Video, indem es von zufälligem Rauschen ausgeht und es Schritt für Schritt entrauscht, bis es zur Beschreibung passt. Seit Stable Diffusion ist es der dominierende Ansatz der Bildgenerierung. Es bietet starke Kontrolle, bleibt aber bei hoher Auflösung rechenintensiv.

Modelle & Architektur

Distillation

Distillation trainiert ein kleines Modell (den Schüler) darauf, die Ausgaben eines großen (des Lehrers) nachzuahmen. Das Ergebnis ist ein leichteres, schnelleres Modell, das einen Teil der Fähigkeiten des großen behält. Das ist ein Grund, warum neue kleine Modelle mit älteren, größeren mithalten.

Konzepte

Embedding

Ein Embedding wandelt einen Text in einen Zahlenvektor um, der seine Bedeutung erfasst, sodass ähnliche Texte nahe beieinander liegen. Es ist die Grundlage für semantische Suche, Empfehlungen und RAG. Es ist die Brücke zwischen Sprache und der Mathematik, die eine Maschine vergleichen kann.

Nutzung & Praxis

Few-Shot (und Zero-Shot)

Few-Shot bedeutet, ein paar Beispiele der Aufgabe in den Prompt einzustreuen, um das Modell zu lenken, ohne es neu zu trainieren. Zero-Shot fragt die Aufgabe direkt ab, ohne Beispiel. Zwei oder drei gute Beispiele verbessern die Qualität oft deutlich, mit weniger Aufwand als ein Fine-Tuning.

Nutzung & Praxis

Function Calling (Funktionsaufruf)

Function Calling lässt ein Modell ein externes Werkzeug (Websuche, Berechnung, API-Abfrage) über einen strukturierten Aufruf anfordern und das Ergebnis dann in seine Antwort einbinden. Es ist der Grundmechanismus von Agenten: es verbindet Sprache mit echten Aktionen. MCP standardisiert diese Anbindung an Werkzeuge.

Modelle & Architektur

GAN (generatives gegnerisches Netz)

Ein GAN lässt zwei Netze gegeneinander antreten: einen Generator, der Bilder erzeugt, und einen Diskriminator, der Echt von Falsch zu unterscheiden versucht. Sie verbessern sich gegenseitig. Vor den Diffusionsmodellen dominierend, wird es weiter für Aufgaben wie Upscaling oder synthetische Gesichter genutzt.

Infrastruktur

GPU

Eine GPU ist der Prozessor, der die parallele Mathematik hinter KI ausführt, dafür weit schneller als eine CPU. Ihre Knappheit und ihr Preis (Nvidia führt den Markt) bestimmen direkt, welche Modelle trainiert und betrieben werden können. Sie sind das Öl des aktuellen KI-Booms.

Nutzung & Praxis

Guardrails (Leitplanken)

Guardrails sind die Filter und Regeln, die rahmen, was ein Modell ausgibt: gefährliche Inhalte verweigern, Ausgaben validieren, die Aktionen eines Agenten begrenzen. In der Produktion nötig, aber unvollkommen, per Jailbreak oder Prompt-Injection umgehbar und mitunter so übereifrig, dass sie legitime Nutzungen blockieren.

Infrastruktur

Inferenz

Inferenz ist das Ausführen eines Modells, um eine Antwort zu erhalten, im Gegensatz zum Training. Hier entstehen die Kosten pro Nutzung und die Latenz. Inferenz zu optimieren (Quantisierung, Caching, kleinere Modelle) ist zentral, um KI im großen Maßstab zu betreiben.

Konzepte

Jailbreak

Ein Jailbreak ist eine Prompt-Manipulation, die die Leitplanken eines Modells umgeht, um normalerweise blockierte Inhalte zu erzeugen. Die Techniken setzen oft auf Rollenspiele oder widersprüchliche Anweisungen. Anbieter stopfen diese Lücken laufend, doch LLM-Sicherheit bleibt ein offenes statt gelöstes Problem.

Nutzung & Praxis

KI-IDE

Eine KI-IDE ist ein Code-Editor mit tief integrierter KI: Inline-Vervollständigung, Chat über die Codebasis und Agenten, die mehrere Dateien bearbeiten. Cursor, Windsurf und Co. gehören dazu. Hier spüren die meisten Entwickler den KI-Produktivitätsgewinn zuerst.

Modelle & Architektur

Kontext

Der Kontext ist alles, was einem Modell in einem bestimmten Moment vorliegt: dein Prompt, der Gesprächsverlauf und bereitgestellte Dokumente. Darüber hinaus hat das Modell kein Gedächtnis. Alles außerhalb des Kontextfensters wird schlicht ignoriert.

Modelle & Architektur

Kontextfenster

Das Kontextfenster ist die maximale Textmenge in Token, die ein Modell auf einmal verarbeiten kann, Prompt und Antwort eingeschlossen. Es reicht von einigen Tausend bis über eine Million Token. Es ist kein Gedächtnis: was es verlässt, ist vergessen, und die Qualität sinkt oft in der Mitte sehr langer Eingaben.

Infrastruktur

Latenz und Durchsatz

Latenz ist die Verzögerung bis zum ersten Wort einer Antwort; Durchsatz die Zahl der pro Sekunde erzeugten Token. Zusammen bestimmen sie das Nutzungsgefühl eines Assistenten und die Kosten im großen Maßstab. Ein größeres, klügeres, aber langsames Modell ist nicht immer die richtige Wahl für eine Echtzeitaufgabe.

Modelle & Architektur

LLM (großes Sprachmodell)

Ein LLM ist ein neuronales Netz, das darauf trainiert wurde, über riesige Textmengen das nächste Wort vorherzusagen. Aus dieser einfachen Aufgabe entstehen Fähigkeiten zum Schreiben, Übersetzen und teilweisen Schlussfolgern. GPT, Claude und Gemini sind LLMs. Ein LLM greift nicht live auf eine Wissensdatenbank zu: es gibt wieder, was seine Parameter beim Training kodiert haben.

Modelle & Architektur

LoRA (leichtes Fine-Tuning)

LoRA ist eine Fine-Tuning-Methode, die nur wenige hinzugefügte Parameter anpasst, statt das ganze Modell neu zu trainieren. Ein Modell an einen Stil oder eine Domäne anzupassen wird schnell und günstig, ohne Rechenzentrums-GPUs. Es ist der Standardweg, Open-Source-Bildmodelle anzupassen.

Infrastruktur

MCP (Model Context Protocol)

MCP ist ein offener Standard, der KI-Modelle über eine gemeinsame Schnittstelle mit externen Werkzeugen und Daten verbindet. Statt einer eigenen Integration pro Werkzeug spricht ein Modell MCP mit jedem kompatiblen Server. Es ist zur De-facto-Verkabelung für Agenten geworden.

Siehe auchKI-AgentKI-IDE
Modelle & Architektur

Mixture of Experts (MoE)

Ein MoE-Modell ist in spezialisierte Teilnetze, die Experten, aufgeteilt, von denen pro Anfrage nur wenige aktiv werden. Man erhält die Kapazität eines sehr großen Modells bei Inferenzkosten nahe einem kleineren. Mixtral und mehrere aktuelle Modelle nutzen diesen Ansatz.

Modelle & Architektur

Multimodal

Ein multimodales Modell verarbeitet mehrere Arten von Ein- oder Ausgaben wie Text, Bilder, Audio und Video in einem einzigen Modell. Es kann ein Foto beschreiben, ein Diagramm lesen oder aus einem Satz ein Bild erzeugen. Bei den neuesten Spitzenmodellen ist das die Norm.

Nutzung & Praxis

No-Code & KI-App-Builder

No-Code erlaubt es, Software ohne Code über visuelle Oberflächen zu bauen. KI-App-Builder wie Lovable, Bolt oder v0 gehen weiter: du beschreibst die App in natürlicher Sprache und erhältst eine funktionierende Oberfläche. Die Grenze ist dieselbe wie beim Vibe Coding: nach dem Prototyp zählt das Beherrschen des Codes wieder.

Joute-Vokabular

Obsoleszenz-Risiko

Ein Joute-Score, der bewertet, wie schnell ein Tool irrelevant werden kann, verschluckt von den nativen Funktionen eines Modells, einer Preisänderung oder einem stärkeren Konkurrenten. Je höher, desto vorsichtiger solltest du sein, dich langfristig auf das Tool zu verlassen.

Modelle & Architektur

Open Source (offene Gewichte)

Ein Modell mit offenen Gewichten hat frei herunterladbare Parameter, die du ausführen, feinjustieren und selbst hosten kannst. Es bietet eine Kontrolle und Privatsphäre, die geschlossene APIs nicht bieten. Lizenzen variieren, und wirklich offen heißt nicht immer frei für die kommerzielle Nutzung.

Modelle & Architektur

Parameter

Parameter sind die internen Werte eines Modells, beim Training justiert, die sein Wissen kodieren. Sie werden in Milliarden gezählt (7B, 70B, 405B). Mehr Parameter bedeuten meist mehr Fähigkeiten, aber auch schwereres Rechnen. Ihre Zahl allein beurteilt ein Modell nicht: Daten- und Trainingsqualität zählen ebenso.

Nutzung & Praxis

Prompt

Ein Prompt ist die Anweisung, die du einem Modell gibst. Seine Formulierung prägt die Antwortqualität stark: ein präziser, kontextualisierter Prompt bringt weit mehr als ein vager. Prompt Engineering ist die Praxis, diese Anweisungen zu verfeinern.

Nutzung & Praxis

Prompt-Injection

Prompt-Injection schleust bösartige Anweisungen in Inhalte ein, die ein Modell liest (eine Webseite, ein Dokument, eine E-Mail), um sein Verhalten zu kapern. Es ist die Hauptsicherheitslücke von Agenten, die externe Quellen durchsuchen und lesen. Eine vollständige Lösung gibt es bislang nicht, nur Abmilderungen.

Infrastruktur

Quantisierung

Quantisierung senkt die numerische Präzision der Modellparameter (etwa von 16 auf 4 Bit), um den Speicherbedarf zu verkleinern und die Inferenz zu beschleunigen. Sie lässt große Modelle auf bescheidener Hardware laufen, bei geringem Qualitätsverlust. Erst dadurch wird ein LLM lokal auf einem normalen PC machbar.

Konzepte

RAG (retrieval-augmented generation)

RAG liefert einem Modell relevante, zur Anfragezeit abgerufene Dokumente, damit es aus deinen Daten antwortet statt nur aus dem Gedächtnis. Das reduziert Halluzinationen und erlaubt Quellenangaben. Die Qualität hängt vollständig vom Abrufschritt ab: schlechter Abruf, schlechte Antwort.

Modelle & Architektur

Reasoning (Reasoning-Modelle)

Reasoning-Modelle investieren zusätzliche Rechenzeit, um ein Problem vor der Antwort Schritt für Schritt durchzuarbeiten, was Mathematik, Logik und Code verbessert. Sie sind langsamer und teurer und für einfache Aufgaben überdimensioniert. Ihr angezeigtes Reasoning ist nicht immer der real gegangene Weg.

Modelle & Architektur

RLHF (Reinforcement Learning aus menschlichem Feedback)

RLHF richtet ein Modell an menschlichen Präferenzen aus: Annotatoren bewerten Antworten, und das Modell wird so justiert, dass es die besser bewerteten liefert. Dieser Schritt macht aus einem rohen, fähigen Modell einen hilfreichen, höflichen Assistenten. Er übernimmt auch die Verzerrungen derjenigen, die bewerten.

Nutzung & Praxis

Sampling (Top-p, Top-k)

Bei jedem Wort erzeugt ein LLM eine Wahrscheinlichkeitsverteilung über mögliche Token; das Sampling entscheidet, welches gewählt wird. Top-k begrenzt die Auswahl auf die k wahrscheinlichsten Token, Top-p (Nucleus) auf jene, die eine bestimmte Wahrscheinlichkeitsmasse abdecken. Mit der Temperatur steuern diese Einstellungen das Gleichgewicht aus Zuverlässigkeit und Vielfalt.

Nutzung & Praxis

Temperatur

Die Temperatur steuert, wie zufällig die Antworten eines Modells sind. Niedrig macht sie die Ausgaben deterministisch und vorhersehbar, nützlich für Code oder Fakten. Hoch begünstigt sie Vielfalt und Kreativität, auf die Gefahr von Fehlern hin. Sie ist der einfachste Regler für das Verhalten eines LLM.

Modelle & Architektur

Token

Ein Token ist die Texteinheit, die ein Modell verarbeitet: ungefähr ein Wortfragment aus wenigen Zeichen. Preise und Kontextgrenzen werden in Token gezählt, nicht in Wörtern. Im Englischen entspricht ein Token im Schnitt etwa 4 Zeichen.

Modelle & Architektur

Transformer

Der Transformer ist die Netzarchitektur hinter fast jedem LLM seit 2017. Seine Neuerung ist der Attention-Mechanismus, der jedes Wort die Bedeutung aller anderen gewichten lässt. Das machte Training im großen Maßstab und lange Kontexte möglich. Das T in GPT steht für Transformer.

Infrastruktur

Vektordatenbank

Eine Vektordatenbank speichert Texte als Embeddings und ruft die einer Anfrage ähnlichsten per Ähnlichkeit ab. Sie ist die Suchmaschine hinter RAG: du indexierst Dokumente, um einem LLM später die relevanten Passagen zu liefern. Pinecone, Weaviate und pgvector sind Beispiele.

Konzepte

Vibe Coding

Vibe Coding bedeutet, Software zu bauen, indem man in natürlicher Sprache beschreibt, was man will, und die KI den Code schreiben lässt, mit wenig manueller Prüfung. Top für Prototypen und Demos. Darüber hinaus wird das Verständnis des erzeugten Codes wieder nötig.