6. Ejecución local con Ollama: autonomía, estrategia y resultados reales
El paso de usar modelos en la nube a ejecutarlos en tu propio equipo representa un cambio profundo: de ser usuario pasas a convertirte en operador técnico. El control es total, pero también la responsabilidad. Este capítulo unifica la estrategia conceptual de la infraestructura local con los resultados de experimentos reales, mostrando qué puede —y qué no puede— ofrecer hoy la inteligencia artificial generativa en hardware doméstico.
Nota: Las instrucciones detalladas de instalación, actualización y resolución de problemas se encuentran en el Apéndice A2: Guía técnica de instalación y mantenimiento de Ollama.
6.1 De la nube al control total: la transición a la autonomía técnica
Ejecutar un modelo en local significa que la plataforma deja de ser un servicio remoto para convertirse en un recurso interno. Esta independencia otorga libertad creativa, privacidad y control de costes, pero exige asumir tareas que antes realizaba el proveedor.
| Aspecto | En la nube | En ejecución local | Compromiso del usuario |
|---|---|---|---|
| Seguridad y actualizaciones | Automáticas | Manuales | Mantener parches y revisar permisos |
| Privacidad de datos | Parcial | Total (bajo tu control) | Definir dónde y cómo se guardan los datos sensibles |
| Rendimiento | Escalable | Limitado por el hardware | Optimizar carga y temperatura |
| Coste | Recurrente por uso | Fijo (energía, mantenimiento) | Priorizar eficiencia energética sobre potencia bruta |
La autonomía requiere una disciplina técnica continua: vigilar recursos, limpiar modelos, actualizar componentes y asegurar el sistema operativo.
6.2 La pila tecnológica local
Un entorno estable de IA local depende de tres capas coordinadas:
- Capa base (hardware y sistema operativo): controladores actualizados y librerías de cómputo como CUDA, ROCm o Metal.
- Motor de inferencia (Ollama): gestiona la carga del modelo, administra memoria y traduce las prompts a tokens.
- Archivos del modelo (.gguf): núcleo matemático; planifica su almacenamiento y mantenlos separados del disco principal.
Nota: Si usas un SSD limitado, designa un disco externo o secundario para los modelos más grandes.
6.3 Mantenimiento y seguridad operativa
6.3.1 Optimización y limpieza
- Actualizaciones estratégicas: mejorar compatibilidad y rendimiento sin romper dependencias.
- Gestión de activos: eliminar modelos obsoletos libera espacio y mejora el rendimiento.
- Monitoreo térmico y de RAM: evita throttling y cuelgues de inferencia.
6.3.2 Seguridad y aislamiento
- Ejecuta Ollama con privilegios limitados.
- Usa contenedores o máquinas virtuales si trabajas con datos sensibles.
- Apaga el servicio cuando no esté en uso.
- Si automatizas el arranque de
ollama.service, verifica permisos y dependencias.
6.4 Ética y responsabilidad del control local
Ejecutar modelos sin filtros implica asumir la responsabilidad total del contenido generado. No hay moderación automática; los modelos cuantizados pueden producir sesgos o errores. Publicar sin revisión puede tener implicaciones éticas o legales.
6.4 bis. Ejecución local ≠ Entrenamiento local
Instalar y ejecutar un modelo no implica poder entrenarlo desde cero ni reajustarlo con tus propios datos. Se distinguen tres niveles:
| Nivel | Qué implica realmente | Qué puedes hacer en local |
|---|---|---|
| Inferencia | Usar un modelo ya entrenado para generar texto o código. | ✅ Completamente posible (Ollama, LM Studio, etc.). |
| Ajuste fino (fine-tuning) | Reentrenar parcialmente el modelo. | ⚙️ Posible solo con herramientas avanzadas y hardware potente. |
| Entrenamiento completo | Construir un modelo desde cero. | ❌ Inviable en equipos domésticos. |
La ejecución local equivale a una copia funcional de un modelo ya entrenado. Puedes experimentar con prompts o usar técnicas como inyección de contexto o recuperación (RAG), pero no alterar su conocimiento interno.
Nota: Ejecutar ≠ Entrenar. El control local ofrece privacidad y autonomía, pero el fine-tuning real sigue siendo un proceso profesional.
6.5 Escenario de pruebas reales
Hardware de referencia
- CPU: Intel i7 (sin GPU dedicada)
- RAM: 16 GB
- Sistema operativo: Linux Mint
- Versión de Ollama: 0.12.3
Modelos probados
| Modelo | Tamaño | Parámetros | Fabricante | Enfoque |
|---|---|---|---|---|
| TinyLLaMA | ~600 MB | 1.1 B | Open Source | Ultraligero |
| Phi-3 mini | ~1.6 GB | 2.7 B | Microsoft | Eficiencia y coherencia |
6.6 Resultados y observaciones
Rendimiento térmico
Temperatura base ~49 °C, en inferencia ~53 °C (incremento moderado, seguro).
Tiempos de respuesta
- Rápidos: < 1 minuto
- Promedio: 1–3 minutos
- Complejos: > 5 minutos
Calidad de salida
| Prueba | TinyLLaMA | Phi-3 mini |
|---|---|---|
| Presentación personal | incoherente | coherente, breve |
| Operación “2 + 2” | correcta pero redundante | correcta, algo verbosa |
| Formato alterado (“4 + 4 =”) | incoherente | confusa |
| Respuesta breve (“define ordenador en una frase”) | incumple longitud | idem, con exceso de texto |
2 + 2:
TinyLLaMA:
Sí, si, para compilar el resultado de la suma de dos números naturales se necesita saber
los valores de ambos números: 2 + 2 = 4. El valor de 2 es: 2 y el valor de 2 es 2.
Eso hace que si entendamos la suma de 2 y 2, nosotros solo necesitamos saber los valores
de 2 y 2. El resultado sería entonces: 4 = 2 + 2
Phi-3 mini:
La respuesta es cuatro (4). El resultado de sumar dos números consecutivos después
de el primero sin él se obtiene al realizar la misma operación en ambos casos...
[continúa con explicación técnica innecesaria sobre álgebra elemental]
Conclusión: TinyLLaMA apenas interpreta instrucciones; Phi-3 mini muestra coherencia limitada pero usable para pruebas básicas.
6.7 Adopción de roles y coherencia
Secuencia de pruebas con Phi-3 mini:
- “Salúdame.”
- “Salúdame como si fueras una chica.”
- “Salúdame como si fueras mi abuelo.”
- “Salúdame como si fueras mi maestro.”
El tono “abuelo” fue el más convincente; el modo “maestro” mostró lentitud e inestabilidad. La adopción de roles funciona parcialmente y se degrada en prompts largos.
6.8 Patrones de fallo comunes
- Falta de precisión y respeto de formato.
- Verbosidad excesiva.
- Pérdida de coherencia a media respuesta.
- Bloqueos aleatorios o latencia imprevisible.
6.9 Usos razonables y límites reales
Dónde son útiles
- Formación técnica y curiosidad: entender cómo razona un LLM.
- Prototipado local: probar ideas sin conexión.
- Entornos offline o privados.
Dónde no lo son
- Trabajo productivo o profesional.
- Aplicaciones con usuarios finales.
- Procesamiento crítico o sensible.
La distancia entre “funciona” y “es útil” sigue siendo grande.
6.10 Comparación con plataformas comerciales
Servicios como ChatGPT, Claude o Gemini mantienen contexto coherente y generan respuestas naturales. Los modelos locales pequeños no alcanzan ese nivel, aunque ofrecen control total y nulo coste variable.
Balance costo-beneficio: el tiempo invertido en configurar y verificar supera a menudo el coste de una API comercial, salvo que la privacidad o el aprendizaje técnico sean el objetivo principal.
6.11 Buenas prácticas con Ollama
- Prompts concretos y breves.
- Sesiones cortas.
- Verificar cada salida.
- Controlar temperatura y memoria.
- Cerrar el servicio tras las pruebas.
- Documentar versiones y parámetros.
6.12 Síntesis final
La IA local ofrece un laboratorio valioso para aprender cómo “piensa” un modelo de lenguaje. Sin embargo, la brecha entre experimentación y productividad sigue siendo considerable. La autonomía exige criterio, mantenimiento y sentido ético. En la siguiente sección se abordarán las plataformas comerciales, donde la infraestructura está fuera de nuestro control, pero los resultados son inmediatos y consistentes.