Ejecución local con Ollama | Apuntes de IA

6. Ejecución local con Ollama: autonomía, estrategia y resultados reales

El paso de usar modelos en la nube a ejecutarlos en tu propio equipo representa un cambio profundo: de ser usuario pasas a convertirte en operador técnico. El control es total, pero también la responsabilidad. Este capítulo unifica la estrategia conceptual de la infraestructura local con los resultados de experimentos reales, mostrando qué puede —y qué no puede— ofrecer hoy la inteligencia artificial generativa en hardware doméstico.

Nota: Las instrucciones detalladas de instalación, actualización y resolución de problemas se encuentran en el Apéndice A2: Guía técnica de instalación y mantenimiento de Ollama.

6.1 De la nube al control total: la transición a la autonomía técnica

Ejecutar un modelo en local significa que la plataforma deja de ser un servicio remoto para convertirse en un recurso interno. Esta independencia otorga libertad creativa, privacidad y control de costes, pero exige asumir tareas que antes realizaba el proveedor.

Aspecto	En la nube	En ejecución local	Compromiso del usuario
Seguridad y actualizaciones	Automáticas	Manuales	Mantener parches y revisar permisos
Privacidad de datos	Parcial	Total (bajo tu control)	Definir dónde y cómo se guardan los datos sensibles
Rendimiento	Escalable	Limitado por el hardware	Optimizar carga y temperatura
Coste	Recurrente por uso	Fijo (energía, mantenimiento)	Priorizar eficiencia energética sobre potencia bruta

La autonomía requiere una disciplina técnica continua: vigilar recursos, limpiar modelos, actualizar componentes y asegurar el sistema operativo.

6.2 La pila tecnológica local

Un entorno estable de IA local depende de tres capas coordinadas:

Capa base (hardware y sistema operativo): controladores actualizados y librerías de cómputo como CUDA, ROCm o Metal.
Motor de inferencia (Ollama): gestiona la carga del modelo, administra memoria y traduce las prompts a tokens.
Archivos del modelo (.gguf): núcleo matemático; planifica su almacenamiento y mantenlos separados del disco principal.

Nota: Si usas un SSD limitado, designa un disco externo o secundario para los modelos más grandes.

6.3 Mantenimiento y seguridad operativa

6.3.1 Optimización y limpieza

Actualizaciones estratégicas: mejorar compatibilidad y rendimiento sin romper dependencias.
Gestión de activos: eliminar modelos obsoletos libera espacio y mejora el rendimiento.
Monitoreo térmico y de RAM: evita throttling y cuelgues de inferencia.

6.3.2 Seguridad y aislamiento

Ejecuta Ollama con privilegios limitados.
Usa contenedores o máquinas virtuales si trabajas con datos sensibles.
Apaga el servicio cuando no esté en uso.
Si automatizas el arranque de ollama.service, verifica permisos y dependencias.

6.4 Ética y responsabilidad del control local

Ejecutar modelos sin filtros implica asumir la responsabilidad total del contenido generado. No hay moderación automática; los modelos cuantizados pueden producir sesgos o errores. Publicar sin revisión puede tener implicaciones éticas o legales.

6.4 bis. Ejecución local ≠ Entrenamiento local

Instalar y ejecutar un modelo no implica poder entrenarlo desde cero ni reajustarlo con tus propios datos. Se distinguen tres niveles:

Nivel	Qué implica realmente	Qué puedes hacer en local
Inferencia	Usar un modelo ya entrenado para generar texto o código.	✅ Completamente posible (Ollama, LM Studio, etc.).
Ajuste fino (fine-tuning)	Reentrenar parcialmente el modelo.	⚙️ Posible solo con herramientas avanzadas y hardware potente.
Entrenamiento completo	Construir un modelo desde cero.	❌ Inviable en equipos domésticos.

La ejecución local equivale a una copia funcional de un modelo ya entrenado. Puedes experimentar con prompts o usar técnicas como inyección de contexto o recuperación (RAG), pero no alterar su conocimiento interno.

Nota: Ejecutar ≠ Entrenar. El control local ofrece privacidad y autonomía, pero el fine-tuning real sigue siendo un proceso profesional.

6.5 Escenario de pruebas reales

Hardware de referencia

CPU: Intel i7 (sin GPU dedicada)
RAM: 16 GB
Sistema operativo: Linux Mint
Versión de Ollama: 0.12.3

Modelos probados

Modelo	Tamaño	Parámetros	Fabricante	Enfoque
TinyLLaMA	~600 MB	1.1 B	Open Source	Ultraligero
Phi-3 mini	~1.6 GB	2.7 B	Microsoft	Eficiencia y coherencia

6.6 Resultados y observaciones

Rendimiento térmico

Temperatura base ~49 °C, en inferencia ~53 °C (incremento moderado, seguro).

Tiempos de respuesta

Rápidos: < 1 minuto
Promedio: 1–3 minutos
Complejos: > 5 minutos

Calidad de salida

Prueba	TinyLLaMA	Phi-3 mini
Presentación personal	incoherente	coherente, breve
Operación “2 + 2”	correcta pero redundante	correcta, algo verbosa
Formato alterado (“4 + 4 =”)	incoherente	confusa
Respuesta breve (“define ordenador en una frase”)	incumple longitud	idem, con exceso de texto

2 + 2:

TinyLLaMA:

Sí, si, para compilar el resultado de la suma de dos números naturales se necesita saber
los valores de ambos números: 2 + 2 = 4. El valor de 2 es: 2 y el valor de 2 es 2.
Eso hace que si entendamos la suma de 2 y 2, nosotros solo necesitamos saber los valores
de 2 y 2. El resultado sería entonces: 4 = 2 + 2

Phi-3 mini:

La respuesta es cuatro (4). El resultado de sumar dos números consecutivos después
de el primero sin él se obtiene al realizar la misma operación en ambos casos...
[continúa con explicación técnica innecesaria sobre álgebra elemental]

Conclusión: TinyLLaMA apenas interpreta instrucciones; Phi-3 mini muestra coherencia limitada pero usable para pruebas básicas.

6.7 Adopción de roles y coherencia

Secuencia de pruebas con Phi-3 mini:

“Salúdame.”
“Salúdame como si fueras una chica.”
“Salúdame como si fueras mi abuelo.”
“Salúdame como si fueras mi maestro.”

El tono “abuelo” fue el más convincente; el modo “maestro” mostró lentitud e inestabilidad. La adopción de roles funciona parcialmente y se degrada en prompts largos.

6.8 Patrones de fallo comunes

Falta de precisión y respeto de formato.
Verbosidad excesiva.
Pérdida de coherencia a media respuesta.
Bloqueos aleatorios o latencia imprevisible.

6.9 Usos razonables y límites reales

Dónde son útiles

Formación técnica y curiosidad: entender cómo razona un LLM.
Prototipado local: probar ideas sin conexión.
Entornos offline o privados.

Dónde no lo son

Trabajo productivo o profesional.
Aplicaciones con usuarios finales.
Procesamiento crítico o sensible.

La distancia entre “funciona” y “es útil” sigue siendo grande.

6.10 Comparación con plataformas comerciales

Servicios como ChatGPT, Claude o Gemini mantienen contexto coherente y generan respuestas naturales. Los modelos locales pequeños no alcanzan ese nivel, aunque ofrecen control total y nulo coste variable.

Balance costo-beneficio: el tiempo invertido en configurar y verificar supera a menudo el coste de una API comercial, salvo que la privacidad o el aprendizaje técnico sean el objetivo principal.

6.11 Buenas prácticas con Ollama

Prompts concretos y breves.
Sesiones cortas.
Verificar cada salida.
Controlar temperatura y memoria.
Cerrar el servicio tras las pruebas.
Documentar versiones y parámetros.

6.12 Síntesis final

La IA local ofrece un laboratorio valioso para aprender cómo “piensa” un modelo de lenguaje. Sin embargo, la brecha entre experimentación y productividad sigue siendo considerable. La autonomía exige criterio, mantenimiento y sentido ético. En la siguiente sección se abordarán las plataformas comerciales, donde la infraestructura está fuera de nuestro control, pero los resultados son inmediatos y consistentes.

Apuntes sobre Inteligencia Artificial