I Ficha técnica | Apuntes de IA

Apéndice I. Ficha técnica de plataformas IA conversacionales (abril 2026)

[ GPT – Copilot – Gémini – Claude – Perplexity – Grok – DeepSeek – Otras ]

ChatGPT (OpenAI · Plataforma GPT-5.4 · 2026)

Plataforma conversacional multimodal basada en la familia de modelos GPT-5, orientada a tareas de análisis, redacción, programación y automatización profesional. En 2026 incorpora capacidades agénticas nativas, incluyendo el uso autónomo del ordenador.

Tipo / modelo base	Plataforma sustentada en la familia GPT-5. Modelo principal actual: GPT-5.4 (marzo 2026), disponible en variantes Instant (rápido), Thinking (razonamiento) y Pro (máximo rendimiento). GPT-5.1 ya ha sido retirado.
Arquitectura	Transformer multimodal unificado (texto, código, imagen, voz). Razonamiento integrado con nivel configurable en cinco grados (none / low / medium / high / xhigh). Computer Use nativo en GPT-5.4: el modelo puede ver la pantalla, hacer clic, navegar interfaces y ejecutar flujos de trabajo en aplicaciones de escritorio.
Contexto y memoria	Ventana de hasta 1 millón de tokens (experimental en Codex y API; 272 K en uso estándar). Memoria temporal activa por sesión; memoria persistente disponible por usuario (editable y auditable).
Modalidades y herramientas	Texto, código, imágenes, voz y archivos (PDF, DOCX, CSV…). Herramientas: intérprete Python, búsqueda web, generación y análisis de imágenes, lectura/escritura de archivos, Canvas interactivo, Deep Research (informes largos con fuentes verificadas), Codex (agente de codificación autónomo). Frontier: plataforma empresarial para desplegar y gestionar agentes ("AI co-workers").
Entornos y funciones persistentes	Proyectos: espacio persistente con archivos e instrucciones. Custom GPTs: instancias configurables. Automations: tareas programadas recurrentes. Búsqueda de chats: localización de conversaciones pasadas. Modo Agente: ejecución autónoma de tareas multi-paso con supervisión humana.
Conocimiento / actualización	Acceso web para información actualizada en tiempo real; sin dependencia de fecha de corte fija para consultas recientes.
Fortalezas y rasgos generales	Entorno unificado para texto, código, archivos y Computer Use. Razonamiento configurable: el usuario controla la profundidad del pensamiento del modelo. Codex permite delegar proyectos de programación completos de forma autónoma. Frontier facilita el despliegue empresarial de agentes con gobernanza integrada. Ritmo de actualización muy rápido: tres versiones principales en pocos meses. ChatGPT (familia GPT-5) ha evolucionado de asistente conversacional a plataforma agéntica capaz de ejecutar tareas autónomas en el ordenador del usuario.
Limitaciones o precauciones	Computer Use requiere software de terceros en la interfaz web de ChatGPT; nativo solo en Codex y API. El ritmo de cambio es muy elevado: funciones y modelos quedan obsoletos en semanas. Las respuestas deben verificarse cuando se requiera exactitud factual. Algunas capacidades avanzadas reservadas a planes de pago (Plus, Pro, Team).

Copilot (Microsoft · Plataforma · 2026)

Asistente de productividad integrado en el ecosistema Microsoft, que en 2026 ha evolucionado de asistente conversacional a agente ejecutor autónomo dentro de Microsoft 365, incorporando tecnología de Anthropic (Claude) y un enfoque multi-modelo.

Tipo / modelo base	Plataforma integrada en Microsoft 365, Windows y Edge. Arquitectura multi-modelo: combina modelos de OpenAI (GPT-5.x) con modelos de Anthropic (Claude Opus 4.6) según la tarea. En 2026, Microsoft ha dejado de depender exclusivamente de OpenAI.
Arquitectura	Transformer multimodal con integración contextual a través de Microsoft Graph y Work IQ (comprensión del contexto laboral completo: correos, reuniones, documentos, mensajes de Teams). Permite seleccionar el modelo más adecuado para cada tarea independientemente del proveedor.
Contexto y memoria	Ventana variable según aplicación. Work IQ proporciona contexto empresarial persistente: Copilot entiende el historial de trabajo del usuario (agenda, proyectos, documentos) sin necesidad de proporcionarlo manualmente en cada sesión.
Modalidades y herramientas	Texto, código, voz e imagen. Integración directa con Word, Excel, PowerPoint, Outlook, Teams y Edge. Copilot Cowork (basado en Claude): agente autónomo que ejecuta flujos de trabajo multi-paso en M365. Critique: GPT genera la respuesta y Claude la revisa antes de mostrarla (+13,8 % de precisión). Council: muestra respuestas de distintos modelos en paralelo para comparación.
Entornos y funciones persistentes	Copilot Cowork: delega tareas completas (preparar reuniones, reorganizar agenda, generar presentaciones, investigación empresarial); disponible a través del programa Frontier. Agent 365: sistema de gobernanza para definir permisos, flujos de aprobación y auditoría de acciones de los agentes. Copilot Lab: entorno de ejemplos y aprendizaje. Microsoft 365 E7: nueva suscripción (99 $/usuario/mes) que agrupa Copilot, Entra Suite y Agent 365.
Conocimiento / actualización	Actualización continua mediante conexión al servicio cloud de Microsoft; sin fecha de corte fija. Work IQ accede en tiempo real a los datos de trabajo del usuario.
Fortalezas y rasgos generales	Integración directa con el ecosistema Office y M365 para automatizar trabajo real. Enfoque multi-modelo: elige el mejor modelo (OpenAI o Anthropic) según la tarea. Copilot Cowork permite delegar flujos de trabajo complejos y de larga duración. Critique y Council aportan verificación cruzada entre modelos, mejorando la fiabilidad. Agent 365 proporciona gobernanza y control empresarial sobre las acciones de los agentes. Copilot ha dado el salto de asistente de redacción a agente ejecutor autónomo con supervisión, posicionándose como la propuesta más integrada para entornos corporativos Microsoft.
Limitaciones o precauciones	Copilot Cowork en acceso anticipado (programa Frontier); disponibilidad general pendiente. Las capacidades más avanzadas requieren M365 E7 (99 $/usuario/mes). Dependencia de la nube y de permisos Graph para acceder a datos personales. Funcionalidad variable según región y versión de producto.

Gemini (Google · Plataforma · 2026)

Plataforma conversacional y multimodal desarrollada por Google DeepMind, integrada en el ecosistema Google. En 2026 incorpora razonamiento avanzado (Deep Think), audio nativo y capacidades agénticas de uso del ordenador mediante Project Mariner.

Tipo / modelo base	Plataforma unificada basada en la familia Gemini 2.5 (Flash en versión gratuita, Pro en la de pago). Gemini 2.5 Pro lidera rankings de desarrollo web (WebDev Arena) y es el modelo de referencia en codificación front-end para desarrolladores.
Arquitectura	Transformer multimodal nativo (texto, imagen, audio, vídeo, código, PDF) con modo Deep Think: el modelo reflexiona y evalúa múltiples hipótesis antes de responder, especialmente útil para matemáticas y programación complejas. Audio nativo para conversaciones más naturales.
Contexto y memoria	Ventana de contexto hasta 1 millón de tokens (con planes de ampliarlo a 2 millones). Memoria temporal de sesión; sin persistencia general entre conversaciones salvo en Workspace integrado.
Modalidades y herramientas	Texto, imágenes, audio, vídeo y PDF en una sola conversación. Herramientas: búsqueda en Google en tiempo real, ejecución de código Python (Colab), Deep Research, generación de imágenes (Imagen), Project Mariner (agente experimental que navega el navegador y ejecuta tareas web de forma autónoma). Integración con Workspace (Docs, Gmail, Sheets, Slides) en planes de pago.
Entornos y funciones persistentes	Gems: asistentes personalizados configurables también en versión gratuita. Historial sincronizado: búsqueda y reanudación de chats. Workspace integrado: acceso a Docs, Gmail, Sheets y Slides con plan Google One AI Premium. App Builder: creación de prototipos de aplicaciones.
Conocimiento / actualización	Acceso directo a Google Search; información actualizada en tiempo real con respaldo de resultados verificados.
Fortalezas y rasgos generales	Líder en comprensión y generación multimodal (especialmente vídeo y audio). Deep Think para razonamiento profundo en matemáticas y programación compleja. Ventana de contexto de 1M tokens: permite analizar documentos o repositorios enteros. Project Mariner como propuesta agéntica para tareas en el navegador. Búsqueda conectada con Google para respuestas actuales y fácticas. Gemini 2.5 Pro se ha consolidado como la referencia en desarrollo web y capacidades multimodales, con una propuesta agéntica experimental creciente.
Limitaciones o precauciones	Project Mariner es experimental; las capacidades agénticas son más limitadas que Cowork. Integración con Workspace y contexto extendido reservados a planes de pago. Privacidad sujeta a la política de datos de Google. Sin memoria persistente general entre sesiones fuera de Workspace.

Claude (Anthropic · Plataforma · 2026)

Plataforma conversacional desarrollada por Anthropic que en 2026 ha ampliado sustancialmente su propuesta: además de la interfaz web, ofrece Claude Code (agente terminal para desarrolladores) y Claude Cowork (agente de escritorio para usuarios no técnicos), convirtiéndose en una de las plataformas agénticas más completas.

Tipo / modelo base	Plataforma basada en la familia Claude 4.6 (Opus 4.6 y Sonnet 4.6). La versión gratuita utiliza Sonnet; los planes de pago (Pro, Max, Team, Enterprise) dan acceso a Opus 4.6, considerado el modelo de referencia para tareas agénticas y razonamiento largo.
Arquitectura	Transformer optimizado para comprensión de texto largo con ventana de contexto de 1 millón de tokens. Diseño orientado a tareas autónomas multi-paso, coordinación de sub-agentes y uso del ordenador (Computer Use, disponible en macOS).
Contexto y memoria	Ventana de contexto hasta 1 millón de tokens. Memoria persistente disponible dentro de proyectos; memoria generada automáticamente entre conversaciones (editable por el usuario). Computer Use permite a Claude interactuar con la pantalla del usuario.
Modalidades y herramientas	Texto e imágenes (análisis, no generación). Lectura directa de archivos (PDF, DOCX, TXT, CSV). Búsqueda web integrada. Artifacts (React, HTML, Markdown, SVG). Claude Code: agente terminal que lee, edita y ejecuta código directamente en el sistema de archivos del usuario. Claude Cowork: agente de escritorio para macOS y Windows que ejecuta tareas autónomas sobre archivos locales, aplicaciones y flujos de trabajo. MCP connectors: integración con servicios externos (Google Drive, Gmail, Slack, etc.).
Entornos y funciones persistentes	Projects: espacios persistentes con archivos, instrucciones y memoria. Artifacts: entorno interactivo para visualizar y editar documentos o código. Claude Cowork: proyectos persistentes con memoria, tareas programadas y ejecución paralela de flujos de trabajo. Historial global: búsqueda y reapertura de conversaciones previas. CLAUDE.md: en Claude Code, archivo de instrucciones permanentes para el proyecto (equivalente a memoria configurable).
Conocimiento / actualización	Conocimiento hasta agosto de 2025. Búsqueda web disponible en planes de pago para información actualizada.
Fortalezas y rasgos generales	Alta coherencia en textos largos, análisis estructurado y revisión de documentos complejos. Claude Code: agente técnico de referencia para programación autónoma (SWE-bench 80,9 %). Claude Cowork: propuesta agéntica para usuarios no técnicos, sin necesidad de terminal. MCP connectors para integración con herramientas externas. Computer Use (macOS) permite automatizar tareas directamente sobre el escritorio. Copilot Cowork de Microsoft está construido sobre tecnología de Claude. Claude ha pasado de ser la alternativa más cuidadosa a convertirse en una de las plataformas agénticas más completas, con propuestas tanto para desarrolladores (Code) como para usuarios generales (Cowork).
Limitaciones o precauciones	Claude Cowork no disponible en Linux; Computer Use solo en macOS (Windows en desarrollo). Cowork requiere que la app de escritorio permanezca abierta durante la ejecución de tareas. Claude Code requiere procesadores con soporte AVX; la alternativa es la instalación mediante npm. Las capacidades agénticas avanzadas (Opus 4.6, Cowork) requieren planes de pago.

Perplexity AI (Plataforma · 2026)

Asistente de búsqueda y síntesis de información que combina modelos de lenguaje con recuperación verificada de fuentes. Mantiene su propuesta diferencial centrada en la fiabilidad documental.

Tipo / modelo base	Plataforma de búsqueda conversacional. Utiliza modelos propios de Perplexity y, en ciertas consultas, modelos externos (GPT-5.x, Claude, Mistral) según disponibilidad y tipo de consulta.
Arquitectura	Motor híbrido RAG (Retrieval-Augmented Generation): combina generación de texto con resultados web citados. Las respuestas se construyen a partir de documentos reales indexados en tiempo real.
Contexto y memoria	Contexto aproximado de 50-100 K tokens por sesión. Sin memoria persistente entre conversaciones; cada consulta es independiente.
Modalidades y herramientas	Texto e imágenes (búsqueda y análisis básico). Herramientas: búsqueda web en tiempo real, resumen con citas verificadas, comparación entre fuentes, exportación en Markdown. Deep Research: informes extensos con análisis multi-fuente. En la app móvil: lectura de enlaces y vista "copilot" para seguir temas.
Entornos y funciones persistentes	Threads: historial consultable de conversaciones. Collections: agrupación manual de resultados o temas guardados. Modo Focus: restringe las fuentes a dominios académicos, científicos o de noticias según el tipo de búsqueda.
Conocimiento / actualización	Acceso continuo a la web; la información se actualiza en tiempo real con enlaces verificados. No tiene fecha de corte de entrenamiento relevante, ya que depende de la búsqueda activa.
Fortalezas y rasgos generales	Recuperación con fuentes visibles y verificables en cada respuesta. Alta velocidad en búsquedas y resúmenes temáticos. Deep Research para informes documentados de mayor profundidad. Modo Focus para limitar el dominio de consulta. Interfaz ligera y sin necesidad de configuración. Perplexity AI se comporta más como un motor de búsqueda explicativo que como un asistente generalista, útil para documentación rápida y verificación de datos.
Limitaciones o precauciones	No ejecuta código ni genera contenido prolongado. Sin memoria persistente ni personalización. Calidad dependiente de las fuentes disponibles en la web. No admite automatizaciones ni carga de archivos complejos.

Grok AI (xAI · Plataforma · 2026)

Asistente conversacional y de búsqueda en tiempo real integrado en la red X (Twitter) y desarrollado por xAI. Combina razonamiento contextual con acceso a información actual y entornos de trabajo persistentes.

Tipo / modelo base	Plataforma conversacional integrada en X y grok.com, basada en el modelo Grok-5. Accesible mediante navegador o app móvil para usuarios registrados en X.
Arquitectura	Transformer decoder-only con razonamiento contextual y conexión continua al flujo público de X. Entrenamiento mixto sobre texto web, publicaciones de X y código abierto.
Contexto y memoria	Ventana aproximada de 200 K tokens. Memoria temporal por hilo; los Workspaces añaden persistencia local de archivos y conversaciones.
Modalidades y herramientas	Texto, código e imagen (análisis y generación). Acceso directo al contenido reciente de X y a la web mediante DeepSearch. Funciones principales: resumen de hilos, búsqueda contextual, análisis de código y seguimiento de tendencias.
Entornos y funciones persistentes	Workspaces: espacios de trabajo que agrupan documentos, archivos y chats por proyecto; admiten PDF, hojas de cálculo, imágenes y código. Colaboración: permiten compartir espacios con otros usuarios mediante enlaces seguros. Integraciones IA: DeepSearch / DeeperSearch para búsqueda ampliada y Grok Imagine para generación de imágenes o vídeos. La versión gratuita ofrece acceso limitado a Workspaces; la gestión completa requiere plan SuperGrok o Premium +.
Conocimiento / actualización	Acceso continuo a la web y al contenido público de X en tiempo real; sin fecha de corte de entrenamiento fija.
Fortalezas y rasgos generales	Acceso inmediato a información actual y publicaciones recientes de X. Workspaces con persistencia y colaboración en línea. Herramientas de búsqueda y análisis social integradas (DeepSearch). Modo conversacional rápido, adecuado para noticias y análisis contextuales. Grok AI combina búsqueda en tiempo real y gestión de proyectos, ofreciendo un entorno híbrido entre red social y asistente analítico.
Limitaciones o precauciones	Uso condicionado a una cuenta X activa y a sus políticas de privacidad. Funciones avanzadas (Workspaces completos, DeeperSearch, Imagine) disponibles solo en planes de pago. Sin memoria personal global ni automatizaciones. Privacidad limitada por la integración con el entorno X.

DeepSeek AI (Plataforma · 2026)

Laboratorio y conjunto de modelos desarrollados por DeepSeek (China), centrados en eficiencia de entrenamiento y razonamiento. Su irrupción en enero de 2025 transformó el debate sobre costes y accesibilidad de los modelos de IA. En 2026 mantiene su relevancia como referencia open source, aunque su modelo sucesor (V4) se ha retrasado por restricciones de acceso a hardware.

Tipo / modelo base	Familia de modelos de lenguaje abiertos. Modelos actuales: DeepSeek V3 (general, con modo Thinking integrado) y DeepSeek R1 (razonamiento). El esperado R2 no se ha lanzado como modelo independiente; sus capacidades se integrarán previsiblemente en DeepSeek V4, esperado para abril de 2026.
Arquitectura	Modelo Transformer con Mixture-of-Experts (MoE), activando un subconjunto de parámetros por token (≈ 37 B activos de 671 B totales). Entrenamiento altamente eficiente que logra rendimiento comparable a modelos occidentales con una fracción del coste computacional. V3.2 ya incorpora modo "Thinking" para razonamiento paso a paso.
Contexto y memoria	Ventana de contexto de 128 K tokens. Sin memoria persistente entre sesiones; las conversaciones son independientes.
Modalidades y herramientas	Texto y código. Capacidad de razonamiento matemático y analítico destacada. Acceso web mediante la plataforma chat.deepseek.com. No dispone de herramientas integradas ni funciones multimodales nativas comparables a los modelos occidentales.
Entornos y funciones persistentes	API pública con soporte para parámetros de razonamiento. No ofrece proyectos persistentes ni almacenamiento de archivos. Distribuciones open source disponibles para ejecución local; ampliamente integrado en plataformas de terceros (Ollama, LM Studio, etc.). Su impacto principal ha sido forzar una bajada generalizada de precios en la industria.
Conocimiento / actualización	Entrenamiento cerrado a finales de 2024. La plataforma web incluye búsqueda, pero sin la profundidad de integración de otros servicios. Se centra en rendimiento y eficiencia más que en actualidad informativa.
Fortalezas y rasgos generales	Alto rendimiento en razonamiento simbólico, matemático y código, con coste muy reducido. Open source: descargable y ejecutable localmente sin depender de servicios en la nube. Ha forzado una reducción generalizada de precios en toda la industria de IA. V4 (esperado abril 2026) promete ser multimodal con ventana de 1M tokens. Ampliamente adoptado en el ecosistema empresarial chino. DeepSeek sigue siendo la referencia en eficiencia computacional y open source, más relevante como modelo de investigación y uso técnico que como asistente de propósito general.
Limitaciones o precauciones	Sin herramientas integradas ni entorno de trabajo persistente. R2 no se ha lanzado; el retraso se atribuye a restricciones de acceso a chips de alta gama (sanciones EE.UU.). Preocupaciones sobre privacidad de datos en servidores chinos, que han llevado a restricciones en algunos países. Rendimiento desigual fuera de dominios numéricos o estructurados.

Epílogo del Apéndice A1

Este es el estado de la cuestión a abril de 2026. La novedad más relevante del periodo es la irrupción generalizada de los agentes autónomos: Claude Cowork, OpenAI Frontier/Codex, Copilot Cowork y Project Mariner de Google representan un cambio de paradigma - los modelos dejan de ser asistentes conversacionales para convertirse en ejecutores de tareas que actúan sobre archivos, aplicaciones y flujos de trabajo sin intervención constante del usuario. El ritmo de cambio es especialmente elevado en 2026: conviene revisar esta información cada 4-6 semanas.

Otras plataformas dignas de mención:

NotebookLM (Google): orientada a la investigación y toma de notas a partir de tus propios documentos. Permite subir textos, PDFs o enlaces, generar resúmenes y preguntas, y mantener cuadernos temáticos con análisis asistido.
Brave Leo (Brave Browser): asistente gratuito integrado en el navegador Brave; resume páginas web, vídeos y PDFs sin necesidad de cuenta externa.
Botpress AI: entorno libre para crear agentes conversacionales personalizados mediante flujos visuales, sin necesidad de programación compleja.
HuggingChat (Hugging Face): interfaz abierta que permite conversar con modelos de código abierto alojados en Hugging Face Hub, como Mistral, Llama 4 o DeepSeek.
Notion AI (Notion.com): asistente integrado en la plataforma de productividad Notion; ayuda a redactar, resumir y reorganizar texto dentro de documentos colaborativos.
Meta AI (Meta / Facebook): modelo basado en Llama 4, integrado en las aplicaciones de Meta (Instagram, WhatsApp y Messenger) y accesible vía web (meta.ai); ofrece generación de texto e imagen con conocimiento actualizado.
Cursor AI (Editor de código): entorno de desarrollo con asistencia IA integrada; compatible con Claude Opus 4.6 y modelos GPT-5.x; su versión gratuita permite completar, explicar y refactorizar código directamente en el editor. Ampliamente adoptado por desarrolladores profesionales en 2026.
OpenAI Codex: agente de codificación autónomo de OpenAI, lanzado en 2026, capaz de ejecutar tareas de programación completas de forma independiente en entornos en la nube.

Estas plataformas representan un panorama en rápida expansión, en el que coexisten modelos cerrados, servicios híbridos y soluciones de código abierto. El criterio más importante antes de elegir sigue siendo la adecuación al uso concreto: redacción, análisis, investigación, programación o automatización de flujos de trabajo.

Revisado: abril 2026

Apuntes sobre Inteligencia Artificial