Joute
Referencia

Glosario de IA

Los términos de la IA explicados con claridad, sin jerga innecesaria ni promesas de marketing. 43 definiciones claras y verificables para seguir las comparativas de Joute sin perderte.

43
Términos definidos
5
Categorías
147
Enlaces internos
Infraestructura

Base de datos vectorial

Una base de datos vectorial almacena textos como embeddings y recupera los más cercanos a una consulta por similitud. Es el motor de búsqueda detrás del RAG: indexas documentos para luego alimentar a un LLM con los pasajes relevantes. Pinecone, Weaviate y pgvector son ejemplos.

Uso y práctica

Benchmark

Un benchmark es una prueba estandarizada que sirve para comparar modelos en tareas como razonamiento, código o conocimiento. Es útil como señal, pero hay que leerlo con cautela: las puntuaciones pueden manipularse y un benchmark rara vez coincide con tu caso de uso real.

Uso y práctica

Cadena de pensamiento (chain-of-thought)

La cadena de pensamiento pide a un modelo que detalle su razonamiento paso a paso antes de concluir, lo que mejora las tareas de lógica y cálculo. Los modelos de razonamiento la usan de forma interna y estructurada. Ojo: el razonamiento mostrado no siempre es el camino real seguido.

Infraestructura

Cuantización

La cuantización reduce la precisión numérica de los parámetros de un modelo (por ejemplo de 16 a 4 bits) para recortar su huella de memoria y acelerar la inferencia. Permite ejecutar modelos grandes en hardware modesto con una ligera pérdida de calidad. Es lo que hace viable correr un LLM en local en un PC normal.

Modelos y arquitectura

Destilación

La destilación entrena un modelo pequeño (el alumno) para imitar las salidas de uno grande (el maestro). El resultado es un modelo más ligero y rápido que conserva parte de la capacidad del grande. Es una razón por la que modelos pequeños recientes rivalizan con otros mayores y más antiguos.

Conceptos

Embedding

Un embedding convierte un texto en un vector de números que captura su significado, de modo que los textos parecidos quedan cerca. Es la base de la búsqueda semántica, la recomendación y el RAG. Es el puente entre el lenguaje y las matemáticas que una máquina puede comparar.

Uso y práctica

Few-shot (y zero-shot)

Few-shot consiste en colar unos pocos ejemplos de la tarea en el prompt para guiar al modelo, sin reentrenarlo. Zero-shot pide la tarea directamente, sin ejemplo. Dar dos o tres buenos ejemplos suele mejorar mucho la calidad, con menos esfuerzo que un fine-tuning.

Uso y práctica

Function calling (llamada a funciones)

El function calling permite a un modelo solicitar una herramienta externa (búsqueda web, cálculo, consulta a una API) produciendo una llamada estructurada, y luego integrar el resultado en su respuesta. Es el mecanismo básico de los agentes: conecta el lenguaje con acciones reales. MCP estandariza esta conexión a herramientas.

Modelos y arquitectura

GAN (red generativa antagónica)

Una GAN enfrenta dos redes: un generador que fabrica imágenes y un discriminador que intenta distinguir lo real de lo falso. Se mejoran mutuamente. Dominante antes de los modelos de difusión, aún se usa para tareas como el escalado o los rostros sintéticos.

Uso y práctica

Generación de imágenes

La generación de imágenes crea visuales a partir de una descripción textual, normalmente mediante modelos de difusión que parten de ruido aleatorio y lo van limpiando paso a paso. Midjourney, Flux e Ideogram son ejemplos. Los puntos sensibles siguen siendo el texto dentro de la imagen, la coherencia de un personaje y los derechos de autor de los datos de entrenamiento.

Ver tambiénMultimodal
Infraestructura

GPU

Una GPU es el procesador que ejecuta las operaciones paralelas detrás de la IA, mucho más rápido que una CPU para esto. Su escasez y precio (Nvidia domina el mercado) condicionan directamente qué modelos pueden entrenarse y ejecutarse. Son el petróleo del auge actual de la IA.

Uso y práctica

Guardrails (salvaguardas)

Las salvaguardas son los filtros y reglas que enmarcan lo que un modelo acepta producir: rechazar contenido peligroso, validar las salidas, limitar las acciones de un agente. Necesarias en producción pero imperfectas, sorteables mediante jailbreak o inyección de prompt, y a veces tan celosas que bloquean usos legítimos.

Uso y práctica

IDE con IA

Un IDE con IA es un editor de código con IA integrada a fondo: autocompletado en línea, chat sobre el código y agentes que editan varios archivos. Aquí entran Cursor, Windsurf y similares. Es donde la mayoría de desarrolladores nota primero las ganancias de productividad.

Infraestructura

Inferencia

La inferencia es el acto de ejecutar un modelo para obtener una respuesta, frente a entrenarlo. Es donde residen el coste por uso y la latencia. Optimizar la inferencia (cuantización, caché, modelos más pequeños) es clave para usar IA a gran escala.

Vocabulario Joute

Ingeniero agéntico

Un ingeniero agéntico diseña y dirige agentes de IA en lugar de escribir cada línea de código: define tareas, herramientas y límites, y verifica el resultado. El oficio pasa de teclear código a diseñar y revisar lo que produce la IA.

Conceptos

Jailbreak

Un jailbreak es una manipulación del prompt que sortea los límites de un modelo para hacerle producir contenido normalmente bloqueado. Las técnicas suelen apoyarse en juegos de rol o instrucciones contradictorias. Los proveedores corrigen estas fallas de forma continua, pero la seguridad de un LLM sigue siendo un problema abierto.

Infraestructura

Latencia y rendimiento

La latencia es el tiempo hasta la primera palabra de una respuesta; el rendimiento, el número de tokens generados por segundo. Juntos determinan la sensación de uso de un asistente y su coste a gran escala. Un modelo más grande y listo pero lento no siempre es la mejor opción para una tarea en tiempo real.

Modelos y arquitectura

LLM (gran modelo de lenguaje)

Un LLM es una red neuronal entrenada para predecir la siguiente palabra sobre enormes cantidades de texto. De esa tarea simple emergen capacidades de redacción, traducción y razonamiento parcial. GPT, Claude y Gemini son LLM. Un LLM no consulta una base de conocimiento en directo: devuelve lo que sus parámetros codificaron durante el entrenamiento.

Modelos y arquitectura

LoRA (ajuste fino ligero)

LoRA es un método de fine-tuning que ajusta solo un pequeño conjunto de parámetros añadidos en lugar de reentrenar todo el modelo. Adaptar un modelo a un estilo o dominio se vuelve rápido y barato, sin GPU de centro de datos. Es la forma estándar de personalizar modelos de imagen de código abierto.

Infraestructura

MCP (Model Context Protocol)

MCP es un estándar abierto que conecta los modelos de IA con herramientas y datos externos mediante una interfaz común. En lugar de una integración a medida por herramienta, un modelo habla MCP con cualquier servidor compatible. Se ha convertido en la fontanería de facto de los agentes.

Modelos y arquitectura

Mecanismo de atención

La atención permite a un modelo, al producir cada palabra, ponderar cuán relevante es cada una de las demás palabras del contexto. Captura dependencias a larga distancia que las arquitecturas anteriores no veían. Su coste de cómputo crece con el cuadrado de la longitud del contexto, por eso los contextos muy largos siguen siendo caros.

Modelos y arquitectura

Mixture of Experts (MoE)

Un modelo MoE se divide en subredes especializadas, los expertos, de los que solo unos pocos se activan por cada petición. Obtienes la capacidad de un modelo muy grande con un coste de inferencia cercano al de uno más pequeño. Mixtral y varios modelos recientes usan este enfoque.

Modelos y arquitectura

Modelo de difusión

Un modelo de difusión genera una imagen o un vídeo partiendo de ruido aleatorio y limpiándolo paso a paso hasta que coincide con la descripción. Es el enfoque dominante para la generación de imágenes desde Stable Diffusion. Ofrece mucho control, pero sigue siendo costoso en alta resolución.

Uso y práctica

Muestreo (top-p, top-k)

En cada palabra, un LLM produce una distribución de probabilidad sobre los tokens posibles; el muestreo decide cuál elegir. Top-k limita la elección a los k tokens más probables, top-p (nucleus) a los que cubren una masa de probabilidad dada. Con la temperatura, estos ajustes equilibran fiabilidad y variedad.

Modelos y arquitectura

Multimodal

Un modelo multimodal maneja varios tipos de entrada o salida, como texto, imágenes, audio y vídeo, dentro de un mismo modelo. Puede describir una foto, leer un gráfico o generar una imagen a partir de una frase. Es la norma en los últimos modelos punteros.

Uso y práctica

No-code y generadores de apps con IA

El no-code permite crear software sin escribir código, mediante interfaces visuales. Los generadores de apps con IA como Lovable, Bolt o v0 van más allá: describes la app en lenguaje natural y obtienes una interfaz funcional. El límite es el mismo que el del vibe coding: pasado el prototipo, vuelve a importar dominar el código.

Modelos y arquitectura

Open source (pesos abiertos)

Un modelo de pesos abiertos tiene parámetros descargables libremente que puedes ejecutar, ajustar y autoalojar. Ofrece un control y una privacidad que las API cerradas no dan. Las licencias varían, y realmente abierto no siempre significa libre para uso comercial.

Modelos y arquitectura

Parámetros

Los parámetros son los valores internos de un modelo, ajustados durante el entrenamiento, que codifican lo que sabe. Se cuentan en miles de millones (7B, 70B, 405B). Más parámetros suele significar más capacidad, pero también más cómputo. Su número por sí solo no juzga un modelo: la calidad de los datos y del entrenamiento cuenta igual.

Uso y práctica

Prompt

Un prompt es la instrucción que le das a un modelo. Su formulación condiciona mucho la calidad de la respuesta: un prompt preciso y contextualizado rinde mucho más que uno vago. El prompt engineering es la práctica de afinar esas instrucciones.

Conceptos

RAG (generación aumentada por recuperación)

El RAG aporta a un modelo documentos relevantes recuperados en el momento de la consulta para que responda a partir de tus datos y no solo de su memoria. Reduce las alucinaciones y permite citar fuentes. Su calidad depende por completo de la recuperación: mala recuperación, mala respuesta.

Modelos y arquitectura

Razonamiento (modelos de razonamiento)

Los modelos de razonamiento dedican cómputo adicional a resolver un problema paso a paso antes de responder, lo que mejora las matemáticas, la lógica y el código. Son más lentos y caros, y excesivos para tareas simples. El razonamiento que muestran no siempre es el camino real seguido.

Vocabulario Joute

Riesgo de obsolescencia

Una puntuación de Joute que mide la rapidez con la que una herramienta puede quedar irrelevante, absorbida por las funciones nativas de un modelo, un cambio de precio o un rival más fuerte. Cuanto más alta, más prudencia al depender de la herramienta a largo plazo.

Uso y práctica

Temperatura

La temperatura controla cuán aleatorias son las respuestas de un modelo. Baja, vuelve las salidas deterministas y predecibles, útil para código o datos. Alta, favorece la variedad y la creatividad a riesgo de errores. Es el ajuste más simple para modular el comportamiento de un LLM.

Modelos y arquitectura

Token

Un token es la unidad de texto que maneja un modelo: aproximadamente un fragmento de palabra de unos pocos caracteres. El precio y los límites de contexto se cuentan en tokens, no en palabras. En inglés, un token equivale de media a unos 4 caracteres.

Modelos y arquitectura

Transformer

El Transformer es la arquitectura de red neuronal detrás de casi todos los LLM desde 2017. Su gran aporte es el mecanismo de atención, que deja a cada palabra ponderar la importancia de todas las demás. Eso hizo posible el entrenamiento a gran escala y los contextos largos. La T de GPT viene de Transformer.

Modelos y arquitectura

Ventana de contexto

La ventana de contexto es la cantidad máxima de texto, medida en tokens, que un modelo puede manejar de una vez, prompt y respuesta incluidos. Va de unos pocos miles a más de un millón de tokens. No es memoria: todo lo que sale de ella se olvida, y la calidad suele degradarse en mitad de entradas muy largas.