Ejecución local de Modelos | Apuntes de IA

5. Ejecución local de modelos: promesas y realidades

5.1 Introducción

Ejecutar un Modelo de Lenguaje Grande (LLM) en el propio equipo —sin depender de servidores externos— se percibe como la alternativa “libre” o “segura” frente a los servicios comerciales. La realidad es más matizada: la ejecución local ofrece control y privacidad, pero también impone costes, limitaciones técnicas y complejidad de mantenimiento. Esta lección resume las ventajas, los obstáculos y los criterios prácticos para valorar si la ejecución local es realmente viable en un entorno personal o profesional.

5.2 Privacidad y control total

El principal argumento a favor de la ejecución local es el control absoluto sobre los datos. Nada sale de tu equipo: ni los prompts, ni las respuestas ni los archivos procesados. Esto elimina el riesgo de filtraciones accidentales o del uso comercial de tus datos por terceros.

Nota: Aunque el modelo se ejecute localmente, los pesos y los binarios suelen descargarse desde servidores externos (Ollama, Hugging Face, etc.). Durante esa descarga, parte de la información —como la dirección IP, modelo elegido o frecuencia de uso— podría registrarse. La privacidad completa solo existe si el modelo y los datos se distribuyen fuera de cualquier infraestructura controlada por terceros. También conviene comprobar las licencias de los modelos, ya que algunas restringen el uso comercial incluso si se ejecutan localmente.

Algunas herramientas locales pueden conectarse ocasionalmente a servicios externos (por ejemplo, para obtener actualizaciones o modelos complementarios), por lo que conviene revisar su configuración de red.

5.3 Costes y rendimiento

Memoria RAM: incluso los modelos “ligeros” (1–3 B de parámetros) requieren entre 4 y 8 GB de RAM para funcionar sin saturación.
CPU/GPU: el cálculo paralelo en GPU acelera la inferencia, pero las tarjetas compatibles son caras y consumen mucha energía.
Almacenamiento: cada modelo ocupa entre cientos de MB y decenas de GB, según su tamaño y formato.

Nota: En hardware doméstico, los modelos locales son útiles para tareas ligeras (resúmenes breves, reformulación de texto, pruebas educativas). Para trabajo intensivo o proyectos con grandes volúmenes de datos, sigue siendo más eficiente recurrir a APIs o servicios en la nube.

5.4 Ventajas reales

Privacidad local: los datos no se transfieren a servidores externos.
Control total del entorno: posibilidad de ajustar parámetros, cuantizar modelos o modificar el código fuente.
Disponibilidad offline: independencia de conexión o licencias de terceros.
Entendimiento técnico: ejecutar localmente ayuda a comprender cómo funcionan los LLM.
Coste cero por uso: una vez descargado el modelo, no hay pagos por token o consulta.

5.5 Limitaciones prácticas

Rendimiento limitado: incluso modelos pequeños pueden tardar minutos en generar textos largos.
Inestabilidad: vulnerabilidad a errores de dependencias o fallos del sistema.
Modelos truncados: versiones cuantizadas sacrifican precisión para reducir tamaño.
Sin persistencia nativa: no guardan historial a menos que se programe.
Curva de aprendizaje elevada: especialmente para usuarios sin experiencia técnica.

5.6 Alternativas y equilibrio

Playgrounds y servicios en la nube permiten probar modelos abiertos sin instalación local.
Ejecución híbrida: mantener en local tareas sensibles y usar plataformas comerciales para análisis complejo.
Modelos pequeños y cuantizados: opciones como Phi-3 mini o TinyLLaMA permiten experimentar sin hardware dedicado.

5.7 Las herramientas principales

Ollama es la plataforma más popular para ejecución local. LM Studio ofrece una interfaz gráfica más amigable. GPT4All está enfocado a hardware modesto. Jan es una alternativa de código abierto con interfaz similar a ChatGPT.

Estas plataformas usan el formato GGUF (.gguf), un estándar abierto derivado de llama.cpp que permite almacenar los pesos del modelo de forma compacta y compatible.

5.8 El caso específico de Ollama

Ollama se ha consolidado como el estándar de facto para la ejecución local de modelos. Compatible con Linux, Mac y Windows, permite descargar y gestionar modelos como Llama 2, Mistral o Gemma, sin coste más allá del hardware necesario.

5.8.1 La cruda realidad del hardware

Un uso local real exige un ordenador moderno, con CPU potente, mucha RAM y GPU con abundante VRAM. Por ejemplo, GPT4All no se ejecuta en CPUs sin soporte AVX. Incluso con GPU dedicada de 8GB VRAM y 16GB RAM, estarás limitado a modelos pequeños.

La VRAM es el cuello de botella: los LLM necesitan acceso ultrarrápido a memoria durante la inferencia. Las CPU procesan instrucciones secuencialmente; las GPU, en paralelo, son mucho más eficientes para cálculos matriciales. La optimización de drivers (CUDA/ROCm) es crucial, y los gráficos integrados Intel rinden peor. Existen variantes CPU (llama.cpp builds) con menor rendimiento pero mayor compatibilidad.

5.9 Modelos pequeños integrados en el sistema operativo

Algunos sistemas modernos incluyen modelos locales ligeros (menos de 1B parámetros) para tareas específicas como reconocimiento de voz o subtitulado automático. Windows (Copilot+) usa su NPU; Apple emplea su Neural Engine. Aunque no ejecutan LLMs generales, muestran la tendencia hacia IA local optimizada para tareas cotidianas.

Propuestas como NVIDIA Spark buscan ejecutar modelos de hasta 200B parámetros localmente, eliminando la dependencia de la nube mediante hardware especializado como el superchip Grace Blackwell.

5.10 El problema de la cuantización

La cuantización reduce tamaño y coste computacional del modelo, pero también su precisión. Niveles como Q2 o Q3 producen calidad degradada; Q4 es razonable; Q5–Q6 mantienen buena calidad pero requieren hardware potente. Cuantizar en exceso puede causar incoherencias o repeticiones.

5.11 Alternativas cuando el hardware no da la talla

Playgrounds gratuitos: Cloudflare Workers AI ofrece acceso gratuito a múltiples modelos abiertos.
Hugging Face Spaces: permite probar modelos en el navegador.
Google Colab: permite ejecutar notebooks con Ollama usando GPUs gratuitas.

5.12 Conclusión

Para usuarios individuales, la ejecución local es útil como experiencia educativa o para garantizar privacidad en contextos controlados. La ejecución local, salvo hardware especializado, no sustituye aún a los servicios comerciales en estabilidad, velocidad o capacidad de razonamiento. Herramientas como Ollama permiten, sin embargo, comprender mejor el funcionamiento de estos sistemas.

Apuntes sobre Inteligencia Artificial