LiteLLM, la opinión de Joute

Lo esencial

Proxy open source que expone una API compatible con OpenAI para más de 100 LLMs
Gratis, código fuente en GitHub, versión cloud LiteLLM Proxy disponible
Permite cambiar entre LLMs sin cambiar el código de la aplicación
Incluye load balancing, retry, fallback y logging básico

¿Qué es LiteLLM?

LiteLLM es un proxy Python que unifica las llamadas a todos los grandes proveedores LLM detrás de una API compatible con OpenAI. Configuras tus modelos (GPT-4o, Claude, Gemini, Mistral, Llama vía Groq o Bedrock) en un archivo YAML, despliegas el proxy, y tu aplicación siempre llama a la misma URL con la misma interfaz. LiteLLM gestiona la traducción de las peticiones hacia cada provider. Si quieres cambiar de OpenAI a Claude, cambias una línea de configuración, no tu código.

Puntos fuertes

Interfaz unificada para 100+ LLMs

Una sola API para todos tus modelos. Load balancing entre varios providers, fallback automático si un provider responde mal, retry configurable.

Control de costes y usos

LiteLLM puede imponer límites de presupuesto por equipo o por clave API, registrar todas las llamadas y calcular costes. Útil para controlar el uso en una organización.

Fácil de desplegar

Un archivo de configuración YAML y un comando Docker. LiteLLM está diseñado para desplegarse rápidamente sin infraestructura compleja.

Límites

No es una herramienta de monitoring completa

LiteLLM hace logging básico. Para trazas detalladas y evaluaciones, se combina con Langfuse o Helicone pero no los reemplaza.

Solo self-hosted (sin la versión cloud)

La versión open source requiere una infraestructura a gestionar. LiteLLM Proxy cloud existe pero es más reciente y menos documentado.

Precios

Open source gratuito. Infraestructura a tu cargo en self-hosted. Planes cloud disponibles, consultar litellm.ai para precios.

Alternativas

LiteLLM = proxy unificado multi-LLM. Alternativa OpenRouter (openrouter.ai) = servicio cloud similar, sin self-hosted. Alternativa Helicone (helicone.ai) = proxy con monitoring, menos control sobre el routing.

Veredicto

LiteLLM es una excelente opción para cualquier equipo que use varios LLMs o quiera mantener la flexibilidad de cambiar de provider sin refactorizar. El despliegue es rápido, la configuración clara. Combinar con Langfuse o Helicone para visibilidad completa.

FAQ

¿LiteLLM reemplaza un SDK de LLM?

No, LiteLLM es un proxy. Tu código llama a LiteLLM que llama al LLM real. También puedes usar la biblioteca Python de LiteLLM directamente sin proxy.

¿LiteLLM soporta modelos locales?

Sí, vía Ollama, vLLM y otros servidores de inferencia locales. Puedes incluir modelos locales en tu pool de LLMs.

¿Hay impacto en la latencia?

Muy bajo en self-hosted en un servidor cercano. Insignificante en la práctica para la mayoría de casos de uso.

¿LiteLLM gestiona streaming responses?

Sí, el streaming está soportado para los LLMs que lo permiten.

Joute puede percibir una comisión sobre las suscripciones realizadas a través de los enlaces de este artículo. Esto no cambia nuestras opiniones.