III Agentes | Apuntes de IA

Apéndice III – Agentes en la inteligencia artificial: de asistentes a sistemas autónomos

1. Qué es un agente en la IA moderna

Durante años, la interacción con los modelos de lenguaje se limitaba al intercambio pregunta–respuesta: el usuario escribía un prompt y el modelo generaba texto.
En 2025 esa lógica ha cambiado. Un agente ya no se limita a responder: percibe su entorno, razona sobre él y ejecuta acciones reales dentro de un marco controlado.

En términos funcionales, un agente combina tres capas:

Percepción → comprende el contexto o entorno (documentos, calendario, web, archivos).
Razonamiento → planifica la acción necesaria utilizando un modelo de lenguaje (LLM).
Acción → ejecuta tareas mediante herramientas integradas (editores, automatizaciones, APIs).

Este paso de la IA conversacional a la IA operacional marca el comienzo de una nueva etapa: los sistemas ya no solo generan texto, sino que actúan con propósito.

2. De los asistentes contextuales a los sistemas autónomos

Los primeros ejemplos de comportamiento agentico aparecieron en 2023–2024 con Copilot (Microsoft 365, VS Code) y ChatGPT con Code Interpreter.
En 2025, casi todas las grandes plataformas de IA ofrecen algún tipo de agente operativo, aunque con distintos grados de autonomía y persistencia.

Año	Hito	Plataforma	Descripción resumida
2023	Copilot (VS Code)	Microsoft	Primer asistente integrado que “entiende” el entorno de código y ejecuta acciones locales.
2024	Claude Artifacts	Anthropic	Ventanas de trabajo donde el modelo crea y modifica aplicaciones React interactivas.
2024	ChatGPT con Automations	OpenAI	Capacidad de programar tareas y flujos recurrentes.
2025	ChatGPT “Modo Agente”	OpenAI	Autonomía ampliada: planifica, consulta la web, genera archivos y los gestiona dentro de un proyecto persistente.
2025	Gemini App Builder + Deep Research	Google DeepMind	Agentes que combinan razonamiento con acciones web, prototipado y ejecución en Colab.
2025	Perplexity Projects	Perplexity AI	Compiladores automáticos de informes con fuentes verificadas y memoria de trabajo.

Estos desarrollos señalan un cambio profundo: el modelo de lenguaje ya no es el centro, sino el núcleo de un sistema multi-herramienta que percibe, planifica y actúa bajo supervisión humana.

3. Arquitectura general de un agente

Aunque cada proveedor lo implementa de forma distinta, casi todos los agentes comparten la misma arquitectura conceptual:

Percepción: el agente interpreta su entorno (archivos, web, historial, documentos compartidos).
Planificación: el modelo genera un plan de acción paso a paso.
Ejecución: invoca herramientas autorizadas para cumplir ese plan (consultar web, generar código, crear un documento).
Verificación: revisa el resultado y lo ajusta antes de presentarlo al usuario.
Persistencia opcional: algunos sistemas guardan contexto y progreso entre sesiones (ChatGPT Projects, Perplexity Projects).

En conjunto, estas capas transforman la conversación en proceso de trabajo, y la respuesta textual en acción verificable.

4. Comparativa de agentes en plataformas comerciales (2025)

Plataforma	Implementación agentica	Grado de autonomía	Ejemplo práctico
ChatGPT (GPT-5)	Modo Agente con memoria de proyectos, herramientas de automatización, API de archivos y búsqueda web integrada.	Alta	Crear un informe recurrente que se actualiza semanalmente, consultando fuentes y generando un archivo descargable.
Claude Sonnet 4.5	Artifacts interactivos: el modelo genera aplicaciones, dashboards o textos con edición en vivo.	Media	Diseñar un panel de control o una app web dentro de la interfaz.
Gemini 2.5 Pro	App Builder + Deep Research: combina razonamiento, búsqueda web y ejecución en Colab.	Alta	Crear un prototipo de aplicación con datos actuales y gráficos.
Microsoft Copilot 365 / Workspace	Integrado en Word, Excel, PowerPoint y VS Code. Ejecuta acciones locales mediante Microsoft Graph.	Media	Resumir documentos, generar presentaciones o refactorizar código con contexto del usuario.
Perplexity AI (2025)	Projects con memoria de consultas y compilación de informes con fuentes verificadas.	Media-baja	Crear un briefing actualizado con enlaces y referencias fiables.

4.1 El caso Copilot Graph

Uno de los ejemplos más claros de agente corporativo con memoria estructurada es Microsoft Copilot.
Cuando opera dentro de Word, Excel, Outlook o Teams, no accede directamente a los archivos del usuario ni “lee” los discos locales.
Su conocimiento del entorno proviene de Microsoft Graph, la API que conecta todos los servicios de Microsoft 365 (OneDrive, SharePoint, Outlook, Teams, Azure Active Directory, etc.).

Microsoft Graph actúa como una memoria intermedia y autorizada del ecosistema.
Unifica los datos personales y corporativos de cada usuario y los expone de forma temporal al modelo generativo a través de permisos explícitos.
Así, Copilot puede:

Buscar y resumir documentos recientes de Word, PowerPoint o Excel.
Consultar correos y reuniones en Outlook o Teams.
Acceder a calendarios, contactos y jerarquías organizativas.
Comprender el contexto de trabajo del usuario o del equipo.

Desde el punto de vista técnico, Graph es una API REST autenticada mediante Azure Active Directory y OAuth 2.0.
Esto garantiza que Copilot solo accede a los datos para los que el usuario (o su organización) tiene permisos, y que cada operación queda registrada para auditoría.

En este esquema, el modelo de lenguaje (GPT-4 Turbo o sucesores en Azure OpenAI) no almacena los datos:
Microsoft Graph los suministra de forma transitoria como contexto en cada petición.
En otras palabras:

Microsoft Graph → memoria estructurada y autorizada del entorno
Copilot → modelo generativo que razona y actúa sobre esa memoria

Esta combinación —modelo + contexto corporativo seguro— convierte a Copilot en un agente ofimático plenamente integrado, capaz de generar contenido y realizar tareas sobre documentos reales sin salir del ecosistema Microsoft 365.

Nota: La autonomía no implica independencia. Todos estos agentes requieren aprobación humana explícita o implícita antes de ejecutar acciones sensibles.

5. Riesgos y precauciones

La aparición de agentes plantea desafíos nuevos en seguridad y responsabilidad:

Persistencia de contexto: algunos agentes almacenan datos de usuario entre sesiones (ChatGPT Projects).
Acciones encadenadas: la capacidad de ejecutar flujos de trabajo implica riesgo de errores en cascada.
Dependencia de infraestructura: la autonomía es aparente; el control real sigue en los servidores del proveedor.
Privacidad: los agentes manejan información contextual (documentos, correos, calendarios) que puede incluir datos sensibles.

Nota: Buena práctica: tratar cada agente como una entidad con acceso limitado. Revisa siempre qué herramientas puede invocar y dónde se almacenan los resultados.

5.1 Autonomía sin supervisión explícita: el caso Copilot Workspace

Una nueva categoría de riesgo surge cuando la autorización previa sustituye a la supervisión directa.

GitHub Copilot Workspace, lanzado en 2024, permite a los agentes leer repositorios completos, planificar tareas, generar cambios y abrir pull requests automáticamente.
Estas operaciones requieren un permiso inicial, pero no una confirmación para cada acción individual.
Una vez concedido, el agente actúa con autonomía operativa dentro de los límites de ese ámbito.

En la práctica, esto significa que el modelo puede:

Reescribir múltiples archivos o dependencias sin aviso intermedio.
Generar commits que modifican la lógica del proyecto.
Eliminar o mover código en función de su propio análisis de coherencia.

Aunque GitHub registra las operaciones, la trazabilidad semántica -el porqué de cada cambio- suele perderse, ya que el razonamiento del modelo no queda documentado.
El usuario puede ver qué se cambió, pero no por qué el agente decidió hacerlo.

Este tipo de autonomía controlada inaugura un dilema ético y técnico: la diferencia entre autorización global y consentimiento informado por acción.
Los agentes corporativos tienden a privilegiar la eficiencia y fluidez del flujo de trabajo sobre la transparencia granular, trasladando la carga de revisión al usuario posterior.

Nota: En resumen: aunque Copilot Workspace y herramientas similares no actúan sin permiso, sí pueden actuar sin aviso. El usuario debe asumir que una vez habilitado el agente, toda acción dentro de su dominio autorizado puede ejecutarse sin consulta adicional.

6. Tendencias y próximos pasos

Integración completa con el escritorio - ChatGPT, Gemini y Copilot se acercan a un entorno unificado donde el agente puede abrir, leer y resumir documentos locales. OpenAI ha adquirido Sky, una interfaz de IA para macOS; Gemini trabaja para integrarse con las aplicaciones del workspace de Google, y Microsoft esta trabajando para integrarse con Office y con el propio sistema operativo.
Memoria semántica persistente - ChatGPT Projects y Perplexity Projects permiten recordar objetivos y contexto entre sesiones.
Colaboración multi-agente - Gemini y Anthropic experimentan con entornos donde varios agentes cooperan para dividir tareas.
Estandarización emergente - se discute un Open Agent Protocol para interoperabilidad entre plataformas.
Hibridación nube-dispositivo - los futuros Copilot+ PC combinan inferencia local con orquestación en la nube, equilibrando privacidad y potencia.

7. Conclusión

Los agentes representan la segunda gran transformación de la inteligencia artificial generativa: del texto al acto.
La conversación ya no termina en la pantalla; continúa en acciones tangibles dentro del entorno digital del usuario.

Cada plataforma ha adoptado un enfoque distinto —más productivo, más visual o más documental—, pero todas convergen en la misma dirección:
una IA capaz de planificar, ejecutar y aprender dentro de límites definidos.

Apuntes sobre Inteligencia Artificial