Referencia

Glosario de IA

Los términos de la IA explicados con claridad, sin jerga innecesaria ni promesas de marketing. 43 definiciones claras y verificables para seguir las comparativas de Joute sin perderte.

Términos definidos

Categorías

147

Enlaces internos

Conceptos

Agente de IA

Un agente de IA es un LLM capaz de planificar y actuar: invoca herramientas, ejecuta pasos y se ajusta según los resultados, en lugar de solo responder. Aquí entran los agentes de código, los de navegación web y los asistentes. Su punto débil sigue siendo la fiabilidad en cadenas largas de pasos.

Ver tambiénIngeniero agéntico MCP (Model Context Protocol)Razonamiento (modelos de razonamiento)IDE con IA

Conceptos

Alucinación

Una alucinación es una afirmación plausible pero falsa que un modelo produce con total aplomo. Surge del propio funcionamiento de los LLM: predicen texto probable, no verdad verificada. Es la razón principal para verificar cualquier dato factual.

Ver tambiénLLM (gran modelo de lenguaje)RAG (generación aumentada por recuperación)Riesgo de obsolescencia

Infraestructura

Base de datos vectorial

Una base de datos vectorial almacena textos como embeddings y recupera los más cercanos a una consulta por similitud. Es el motor de búsqueda detrás del RAG: indexas documentos para luego alimentar a un LLM con los pasajes relevantes. Pinecone, Weaviate y pgvector son ejemplos.

Ver tambiénEmbedding RAG (generación aumentada por recuperación)

Uso y práctica

Benchmark

Un benchmark es una prueba estandarizada que sirve para comparar modelos en tareas como razonamiento, código o conocimiento. Es útil como señal, pero hay que leerlo con cautela: las puntuaciones pueden manipularse y un benchmark rara vez coincide con tu caso de uso real.

Ver tambiénLLM (gran modelo de lenguaje)Razonamiento (modelos de razonamiento)

Uso y práctica

Cadena de pensamiento (chain-of-thought)

La cadena de pensamiento pide a un modelo que detalle su razonamiento paso a paso antes de concluir, lo que mejora las tareas de lógica y cálculo. Los modelos de razonamiento la usan de forma interna y estructurada. Ojo: el razonamiento mostrado no siempre es el camino real seguido.

Ver tambiénRazonamiento (modelos de razonamiento)Prompt Few-shot (y zero-shot)

Modelos y arquitectura

Contexto

El contexto es todo lo que un modelo tiene delante en un momento dado: tu prompt, el historial de la conversación y los documentos aportados. El modelo no tiene memoria más allá de eso. Todo lo que queda fuera de la ventana de contexto simplemente se ignora.

Ver tambiénToken LLM (gran modelo de lenguaje)RAG (generación aumentada por recuperación)

Infraestructura

Cuantización

La cuantización reduce la precisión numérica de los parámetros de un modelo (por ejemplo de 16 a 4 bits) para recortar su huella de memoria y acelerar la inferencia. Permite ejecutar modelos grandes en hardware modesto con una ligera pérdida de calidad. Es lo que hace viable correr un LLM en local en un PC normal.

Ver tambiénInferencia GPU Parámetros Open source (pesos abiertos)

Modelos y arquitectura

Destilación

La destilación entrena un modelo pequeño (el alumno) para imitar las salidas de uno grande (el maestro). El resultado es un modelo más ligero y rápido que conserva parte de la capacidad del grande. Es una razón por la que modelos pequeños recientes rivalizan con otros mayores y más antiguos.

Ver tambiénParámetros Inferencia Benchmark

Conceptos

Embedding

Un embedding convierte un texto en un vector de números que captura su significado, de modo que los textos parecidos quedan cerca. Es la base de la búsqueda semántica, la recomendación y el RAG. Es el puente entre el lenguaje y las matemáticas que una máquina puede comparar.

Ver tambiénRAG (generación aumentada por recuperación)Inferencia

Uso y práctica

Few-shot (y zero-shot)

Few-shot consiste en colar unos pocos ejemplos de la tarea en el prompt para guiar al modelo, sin reentrenarlo. Zero-shot pide la tarea directamente, sin ejemplo. Dar dos o tres buenos ejemplos suele mejorar mucho la calidad, con menos esfuerzo que un fine-tuning.

Ver tambiénPrompt Fine-tuning (ajuste fino)Cadena de pensamiento (chain-of-thought)

Modelos y arquitectura

Fine-tuning (ajuste fino)

El fine-tuning continúa el entrenamiento de un modelo existente sobre un conjunto de datos específico para especializarlo en un estilo, dominio o tarea. Es más ligero que entrenar desde cero, pero aun así exige datos de calidad. Para el conocimiento factual, el RAG suele ser más barato y flexible.

Ver tambiénLLM (gran modelo de lenguaje)RAG (generación aumentada por recuperación)Open source (pesos abiertos)Riesgo de obsolescencia

Uso y práctica

Function calling (llamada a funciones)

El function calling permite a un modelo solicitar una herramienta externa (búsqueda web, cálculo, consulta a una API) produciendo una llamada estructurada, y luego integrar el resultado en su respuesta. Es el mecanismo básico de los agentes: conecta el lenguaje con acciones reales. MCP estandariza esta conexión a herramientas.

Ver tambiénAgente de IA MCP (Model Context Protocol)RAG (generación aumentada por recuperación)

Modelos y arquitectura

GAN (red generativa antagónica)

Una GAN enfrenta dos redes: un generador que fabrica imágenes y un discriminador que intenta distinguir lo real de lo falso. Se mejoran mutuamente. Dominante antes de los modelos de difusión, aún se usa para tareas como el escalado o los rostros sintéticos.

Ver tambiénModelo de difusión Generación de imágenes Multimodal

Uso y práctica

Generación de imágenes

La generación de imágenes crea visuales a partir de una descripción textual, normalmente mediante modelos de difusión que parten de ruido aleatorio y lo van limpiando paso a paso. Midjourney, Flux e Ideogram son ejemplos. Los puntos sensibles siguen siendo el texto dentro de la imagen, la coherencia de un personaje y los derechos de autor de los datos de entrenamiento.

Ver tambiénMultimodal

Infraestructura

GPU

Una GPU es el procesador que ejecuta las operaciones paralelas detrás de la IA, mucho más rápido que una CPU para esto. Su escasez y precio (Nvidia domina el mercado) condicionan directamente qué modelos pueden entrenarse y ejecutarse. Son el petróleo del auge actual de la IA.

Ver tambiénInferencia Open source (pesos abiertos)

Uso y práctica

Guardrails (salvaguardas)

Las salvaguardas son los filtros y reglas que enmarcan lo que un modelo acepta producir: rechazar contenido peligroso, validar las salidas, limitar las acciones de un agente. Necesarias en producción pero imperfectas, sorteables mediante jailbreak o inyección de prompt, y a veces tan celosas que bloquean usos legítimos.

Ver tambiénJailbreak Inyección de prompt Agente de IA

Uso y práctica

IDE con IA

Un IDE con IA es un editor de código con IA integrada a fondo: autocompletado en línea, chat sobre el código y agentes que editan varios archivos. Aquí entran Cursor, Windsurf y similares. Es donde la mayoría de desarrolladores nota primero las ganancias de productividad.

Ver tambiénAgente de IA Vibe coding MCP (Model Context Protocol)

Infraestructura

Inferencia

La inferencia es el acto de ejecutar un modelo para obtener una respuesta, frente a entrenarlo. Es donde residen el coste por uso y la latencia. Optimizar la inferencia (cuantización, caché, modelos más pequeños) es clave para usar IA a gran escala.

Ver tambiénToken GPU LLM (gran modelo de lenguaje)

Vocabulario Joute

Ingeniero agéntico

Un ingeniero agéntico diseña y dirige agentes de IA en lugar de escribir cada línea de código: define tareas, herramientas y límites, y verifica el resultado. El oficio pasa de teclear código a diseñar y revisar lo que produce la IA.

Ver tambiénVibe coding Agente de IA IDE con IA

Uso y práctica

Inyección de prompt

La inyección de prompt cuela instrucciones maliciosas en un contenido que el modelo va a leer (una página web, un documento, un correo) para secuestrar su comportamiento. Es la principal falla de seguridad de los agentes que navegan y leen fuentes externas. Hoy no existe una solución completa, solo mitigaciones.

Ver tambiénJailbreak Agente de IA Guardrails (salvaguardas)RAG (generación aumentada por recuperación)

Conceptos

Jailbreak

Un jailbreak es una manipulación del prompt que sortea los límites de un modelo para hacerle producir contenido normalmente bloqueado. Las técnicas suelen apoyarse en juegos de rol o instrucciones contradictorias. Los proveedores corrigen estas fallas de forma continua, pero la seguridad de un LLM sigue siendo un problema abierto.

Ver tambiénPrompt LLM (gran modelo de lenguaje)

Infraestructura

Latencia y rendimiento

La latencia es el tiempo hasta la primera palabra de una respuesta; el rendimiento, el número de tokens generados por segundo. Juntos determinan la sensación de uso de un asistente y su coste a gran escala. Un modelo más grande y listo pero lento no siempre es la mejor opción para una tarea en tiempo real.

Ver tambiénInferencia GPU Cuantización Mixture of Experts (MoE)

Modelos y arquitectura

LLM (gran modelo de lenguaje)

Un LLM es una red neuronal entrenada para predecir la siguiente palabra sobre enormes cantidades de texto. De esa tarea simple emergen capacidades de redacción, traducción y razonamiento parcial. GPT, Claude y Gemini son LLM. Un LLM no consulta una base de conocimiento en directo: devuelve lo que sus parámetros codificaron durante el entrenamiento.

Ver tambiénToken Contexto Alucinación Fine-tuning (ajuste fino)Razonamiento (modelos de razonamiento)

Modelos y arquitectura

LoRA (ajuste fino ligero)

LoRA es un método de fine-tuning que ajusta solo un pequeño conjunto de parámetros añadidos en lugar de reentrenar todo el modelo. Adaptar un modelo a un estilo o dominio se vuelve rápido y barato, sin GPU de centro de datos. Es la forma estándar de personalizar modelos de imagen de código abierto.

Ver tambiénFine-tuning (ajuste fino)Parámetros Open source (pesos abiertos)Modelo de difusión

Infraestructura

MCP (Model Context Protocol)

MCP es un estándar abierto que conecta los modelos de IA con herramientas y datos externos mediante una interfaz común. En lugar de una integración a medida por herramienta, un modelo habla MCP con cualquier servidor compatible. Se ha convertido en la fontanería de facto de los agentes.

Ver tambiénAgente de IA IDE con IA

Modelos y arquitectura

Mecanismo de atención

La atención permite a un modelo, al producir cada palabra, ponderar cuán relevante es cada una de las demás palabras del contexto. Captura dependencias a larga distancia que las arquitecturas anteriores no veían. Su coste de cómputo crece con el cuadrado de la longitud del contexto, por eso los contextos muy largos siguen siendo caros.

Ver tambiénTransformer Ventana de contexto Inferencia

Modelos y arquitectura

Mixture of Experts (MoE)

Un modelo MoE se divide en subredes especializadas, los expertos, de los que solo unos pocos se activan por cada petición. Obtienes la capacidad de un modelo muy grande con un coste de inferencia cercano al de uno más pequeño. Mixtral y varios modelos recientes usan este enfoque.

Ver tambiénParámetros Inferencia Open source (pesos abiertos)

Modelos y arquitectura

Modelo de difusión

Un modelo de difusión genera una imagen o un vídeo partiendo de ruido aleatorio y limpiándolo paso a paso hasta que coincide con la descripción. Es el enfoque dominante para la generación de imágenes desde Stable Diffusion. Ofrece mucho control, pero sigue siendo costoso en alta resolución.

Ver tambiénGeneración de imágenes GAN (red generativa antagónica)Multimodal

Uso y práctica

Muestreo (top-p, top-k)

En cada palabra, un LLM produce una distribución de probabilidad sobre los tokens posibles; el muestreo decide cuál elegir. Top-k limita la elección a los k tokens más probables, top-p (nucleus) a los que cubren una masa de probabilidad dada. Con la temperatura, estos ajustes equilibran fiabilidad y variedad.

Ver tambiénTemperatura Token Inferencia

Modelos y arquitectura

Multimodal

Un modelo multimodal maneja varios tipos de entrada o salida, como texto, imágenes, audio y vídeo, dentro de un mismo modelo. Puede describir una foto, leer un gráfico o generar una imagen a partir de una frase. Es la norma en los últimos modelos punteros.

Ver tambiénLLM (gran modelo de lenguaje)Generación de imágenes

Uso y práctica

No-code y generadores de apps con IA

El no-code permite crear software sin escribir código, mediante interfaces visuales. Los generadores de apps con IA como Lovable, Bolt o v0 van más allá: describes la app en lenguaje natural y obtienes una interfaz funcional. El límite es el mismo que el del vibe coding: pasado el prototipo, vuelve a importar dominar el código.

Ver tambiénVibe coding IDE con IA

Modelos y arquitectura

Open source (pesos abiertos)

Un modelo de pesos abiertos tiene parámetros descargables libremente que puedes ejecutar, ajustar y autoalojar. Ofrece un control y una privacidad que las API cerradas no dan. Las licencias varían, y realmente abierto no siempre significa libre para uso comercial.

Ver tambiénLLM (gran modelo de lenguaje)Fine-tuning (ajuste fino)

Modelos y arquitectura

Parámetros

Los parámetros son los valores internos de un modelo, ajustados durante el entrenamiento, que codifican lo que sabe. Se cuentan en miles de millones (7B, 70B, 405B). Más parámetros suele significar más capacidad, pero también más cómputo. Su número por sí solo no juzga un modelo: la calidad de los datos y del entrenamiento cuenta igual.

Ver tambiénLLM (gran modelo de lenguaje)Transformer Cuantización Benchmark

Uso y práctica

Prompt

Un prompt es la instrucción que le das a un modelo. Su formulación condiciona mucho la calidad de la respuesta: un prompt preciso y contextualizado rinde mucho más que uno vago. El prompt engineering es la práctica de afinar esas instrucciones.

Ver tambiénLLM (gran modelo de lenguaje)Agente de IA Jailbreak

Conceptos

RAG (generación aumentada por recuperación)

El RAG aporta a un modelo documentos relevantes recuperados en el momento de la consulta para que responda a partir de tus datos y no solo de su memoria. Reduce las alucinaciones y permite citar fuentes. Su calidad depende por completo de la recuperación: mala recuperación, mala respuesta.

Ver tambiénEmbedding Contexto Alucinación LLM (gran modelo de lenguaje)

Modelos y arquitectura

Razonamiento (modelos de razonamiento)

Los modelos de razonamiento dedican cómputo adicional a resolver un problema paso a paso antes de responder, lo que mejora las matemáticas, la lógica y el código. Son más lentos y caros, y excesivos para tareas simples. El razonamiento que muestran no siempre es el camino real seguido.

Ver tambiénLLM (gran modelo de lenguaje)Agente de IA Inferencia Benchmark

Vocabulario Joute

Riesgo de obsolescencia

Una puntuación de Joute que mide la rapidez con la que una herramienta puede quedar irrelevante, absorbida por las funciones nativas de un modelo, un cambio de precio o un rival más fuerte. Cuanto más alta, más prudencia al depender de la herramienta a largo plazo.

Ver tambiénLLM (gran modelo de lenguaje)Benchmark

Modelos y arquitectura

RLHF (aprendizaje por refuerzo con feedback humano)

El RLHF alinea un modelo con las preferencias humanas: los anotadores clasifican respuestas y el modelo se ajusta para producir las mejor valoradas. Es el paso que convierte un modelo bruto pero capaz en un asistente útil y educado. También incorpora los sesgos de quien clasifica.

Ver tambiénFine-tuning (ajuste fino)LLM (gran modelo de lenguaje)Alucinación Razonamiento (modelos de razonamiento)

Uso y práctica

Temperatura

La temperatura controla cuán aleatorias son las respuestas de un modelo. Baja, vuelve las salidas deterministas y predecibles, útil para código o datos. Alta, favorece la variedad y la creatividad a riesgo de errores. Es el ajuste más simple para modular el comportamiento de un LLM.

Ver tambiénMuestreo (top-p, top-k)Prompt Alucinación

Modelos y arquitectura

Token

Un token es la unidad de texto que maneja un modelo: aproximadamente un fragmento de palabra de unos pocos caracteres. El precio y los límites de contexto se cuentan en tokens, no en palabras. En inglés, un token equivale de media a unos 4 caracteres.

Ver tambiénLLM (gran modelo de lenguaje)Contexto Inferencia

Modelos y arquitectura

Transformer

El Transformer es la arquitectura de red neuronal detrás de casi todos los LLM desde 2017. Su gran aporte es el mecanismo de atención, que deja a cada palabra ponderar la importancia de todas las demás. Eso hizo posible el entrenamiento a gran escala y los contextos largos. La T de GPT viene de Transformer.

Ver tambiénMecanismo de atención LLM (gran modelo de lenguaje)Parámetros Ventana de contexto

Modelos y arquitectura

Ventana de contexto

La ventana de contexto es la cantidad máxima de texto, medida en tokens, que un modelo puede manejar de una vez, prompt y respuesta incluidos. Va de unos pocos miles a más de un millón de tokens. No es memoria: todo lo que sale de ella se olvida, y la calidad suele degradarse en mitad de entradas muy largas.

Ver tambiénContexto Token Mecanismo de atención RAG (generación aumentada por recuperación)

Conceptos

Vibe coding

El vibe coding consiste en crear software describiendo lo que quieres en lenguaje natural y dejando que la IA escriba el código, con poca revisión manual. Va muy bien para prototipos y demos. Pasado ese punto, vuelve a hacer falta entender el código generado.

Ver tambiénIngeniero agéntico No-code y generadores de apps con IA IDE con IA Agente de IA