IV Hardware para IA | Apuntes de IA

Apéndice IV – El nuevo hardware de la IA: las NPU y la frontera entre lo local y la nube

1. Introducción

En los últimos años, el hardware de los ordenadores personales ha incorporado un nuevo componente orientado a la inteligencia artificial: la Unidad de Procesamiento Neuronal (NPU).
Aunque las NPUs existen desde hace tiempo en teléfonos móviles y sistemas embebidos, su integración en los PC marca un cambio profundo en la arquitectura general de cómputo.

La NPU está diseñada para acelerar la inferencia, es decir, la ejecución de un modelo ya entrenado, optimizando las operaciones matriciales y tensoriales con una eficiencia energética muy superior a la de una CPU o GPU convencional.

Su llegada al entorno de escritorio no implica una “ejecución local completa” de modelos, sino un modelo híbrido, en el que parte del procesamiento se realiza en el dispositivo y parte en la nube.
Este paradigma se conoce como IA en el dispositivo (On-Device AI).

2. Qué es una NPU y cómo se diferencia de CPU y GPU

Una NPU es un chip especializado en operaciones tensoriales propias de las redes neuronales.
Mientras que la CPU se optimiza para tareas generales y la GPU para procesamiento gráfico masivo, la NPU se enfoca en la eficiencia energética y en la aceleración sostenida de modelos pequeños o medianos.

Componente	Uso principal en IA	Factor limitante	Característica distintiva
CPU	Control general del sistema, lógica secuencial, coordinación de tareas	Frecuencia de reloj y número de núcleos	Versátil, pero ineficiente para cálculos masivos de matrices
GPU	Entrenamiento de modelos y ejecución de LLM grandes	Capacidad de VRAM	Gran potencia paralela, alto consumo energético
NPU	Inferencia eficiente de modelos pequeños y medianos	Potencia en TOPS (billones de operaciones por segundo)	Alta eficiencia energética; especializada en IA embebida

3. IA en el dispositivo vs. ejecución local completa

Conviene distinguir entre dos conceptos que a menudo se confunden:

Aspecto	IA en el dispositivo (NPU)	Ejecución local completa (Ollama, LM Studio)
Dónde se ejecuta el modelo	En parte en el chip local (modelos pequeños, tareas predefinidas)	Completamente en el equipo, con pesos descargados y ejecutables locales
Control del usuario	Limitado o inexistente: depende del sistema operativo	Total: el usuario elige modelo, cuantización y parámetros
Dependencia de Internet	Requerida para tareas complejas o conectadas a la nube	Opcional: necesaria solo para descargas o actualizaciones
Objetivo principal	Optimizar tareas cotidianas de IA (voz, imagen, indexación local)	Permitir inferencia libre, autónoma y privada
Privacidad	Los datos sensibles pueden procesarse localmente antes de sincronizarse	Todo el procesamiento ocurre en el equipo del usuario
Ejemplo típico	Windows 11 Copilot+ PC con NPU de 40 TOPS	Laptop o servidor personal con modelos LLaMA 3 u OpenPhi

Nota: La llamada “IA en el dispositivo” no debe confundirse con la ejecución local completa. En los entornos híbridos actuales, la NPU acelera parte del proceso —normalmente el preprocesado o la respuesta inmediata—, mientras que el razonamiento complejo y la generación de texto o imágenes se delegan a la nube.

4. El estándar Copilot+ PC

Microsoft introdujo la marca Copilot+ PC para identificar equipos compatibles con las nuevas funciones de IA de Windows 11.
El requisito técnico principal es disponer de una NPU con al menos 40 TOPS de potencia.

Función	Dónde se ejecuta	Rol de la NPU
Recall (Recuerdos)	Local	Indexa la actividad en pantalla, procesando y cifrando los datos en disco local
Cocreador en Paint	Local	Genera imágenes y texto mediante IA sin conexión a Internet
Efectos de Windows Studio	Local	Mejora vídeo y audio (desenfoque, corrección de mirada) con bajo consumo
Copilot (asistente de chat)	Nube	Procesa consultas complejas; la NPU solo actúa como punto de acceso

El modelo de seguridad está diseñado para que los datos privados se procesen y almacenen localmente, mientras que las tareas que requieren razonamiento o información actualizada se delegan en la nube.

5. Soporte y ecosistema más allá de Microsoft

Microsoft no fabrica NPUs, pero su estándar Copilot+ PC ha impulsado su adopción en todo el mercado. Fabricantes como Intel, AMD, Qualcomm y Apple ya integran unidades neuronales en sus procesadores —como el Neural Engine, el AI Engine o XDNA 2— alcanzando entre 40 y 50 TOPS de rendimiento. Mientras tanto, el ecosistema Linux avanza en soporte abierto mediante proyectos como OpenVINO y ONNX Runtime. La tendencia es clara: la NPU se convierte en un componente estándar del hardware de nueva generación, tanto en PC como en dispositivos móviles.

Nota técnica · Soporte real de las NPUs en los sistemas operativos

El soporte de una NPU no depende solo del hardware, sino de tres capas interconectadas: controladores (nivel kernel), API o frameworks que exponen sus funciones, y aplicaciones que realmente las utilizan.

En Windows 11, el soporte está integrado de forma nativa a través de DirectML, que actúa como capa intermedia entre el sistema y las aplicaciones. Esto permite que herramientas como Paint, Studio Effects o Recall aprovechen la NPU directamente, sin depender de Office ni de software externo.

Por el contrario, Windows 10 carece de esta infraestructura. Aunque puede detectar el chip mediante drivers del fabricante, no dispone de un sistema unificado de gestión de IA ni de APIs que lo hagan accesible a las aplicaciones. Por tanto, no es “NPU-ready” en el sentido moderno del término.

En Microsoft 365 Copilot (Word, Excel, Teams, etc.), la IA opera principalmente en la nube de Azure OpenAI. El hardware local puede ayudar en tareas de voz o vídeo, pero la inferencia del modelo se realiza en servidores remotos, no en la NPU del usuario.

En Linux, el soporte es más descentralizado. El kernel incluye controladores para algunas NPUs (Intel, Qualcomm), mientras que librerías como ONNX Runtime y OpenVINO permiten que las aplicaciones las utilicen sin depender del fabricante.
Los entornos gráficos (GNOME, KDE, etc.) no emplean todavía la NPU directamente, aunque se prevé su uso en tareas como composición o reconocimiento facial.

En síntesis: solo Windows 11 ofrece hoy soporte nativo y estandarizado de NPU. En Windows 10 depende del software, y en Linux del avance de los controladores y librerías intermedias. Los asistentes como Microsoft 365 Copilot continúan procesando la IA en la nube, independientemente del hardware local.

6. Implicaciones prácticas

Eficiencia energética: la NPU reduce el consumo al ejecutar operaciones de IA repetitivas.
Privacidad local: algunas tareas se procesan sin enviar datos a la nube.
Aceleración transparente: el usuario no necesita configurar parámetros ni modelos.
Limitaciones claras: la ejecución de modelos grandes sigue dependiendo de VRAM y de recursos cloud.
Tendencia de convergencia: el futuro apunta a una arquitectura híbrida —parte local (NPU) y parte remota (GPU/Cloud)—.

7. Conclusión

Las NPUs representan un nuevo equilibrio entre computación local y nube.
No sustituyen a las soluciones de ejecución local completas, pero sí inauguran una etapa de inteligencia distribuida, donde los datos privados permanecen en el dispositivo, las tareas intensivas se delegan y la experiencia del usuario se vuelve más fluida.

Este avance no es solo técnico: define un nuevo terreno de disputa entre autonomía y dependencia. El usuario recupera parte del procesamiento, pero el control último sigue en manos de los proveedores que deciden qué procesos se ejecutan localmente y cuáles se derivan a la nube.

En otras palabras, las NPUs son el primer paso tangible hacia una IA verdaderamente personal, pero todavía dentro de los límites de una infraestructura controlada por las grandes plataformas.

Apuntes sobre Inteligencia Artificial