Apuntes sobre Inteligencia Artificial

Lo difícil no es contestar, sino tener razón.

Apéndice I. Ficha técnica de plataformas IA conversacionales (abril 2026)

[ GPTCopilotGéminiClaudePerplexityGrokDeepSeekOtras ]

ChatGPT (OpenAI · Plataforma GPT-5.4 · 2026)

Plataforma conversacional multimodal basada en la familia de modelos GPT-5, orientada a tareas de análisis, redacción, programación y automatización profesional. En 2026 incorpora capacidades agénticas nativas, incluyendo el uso autónomo del ordenador.

Tipo / modelo base Plataforma sustentada en la familia GPT-5. Modelo principal actual: GPT-5.4 (marzo 2026), disponible en variantes Instant (rápido), Thinking (razonamiento) y Pro (máximo rendimiento). GPT-5.1 ya ha sido retirado.
Arquitectura Transformer multimodal unificado (texto, código, imagen, voz). Razonamiento integrado con nivel configurable en cinco grados (none / low / medium / high / xhigh). Computer Use nativo en GPT-5.4: el modelo puede ver la pantalla, hacer clic, navegar interfaces y ejecutar flujos de trabajo en aplicaciones de escritorio.
Contexto y memoria Ventana de hasta 1 millón de tokens (experimental en Codex y API; 272 K en uso estándar). Memoria temporal activa por sesión; memoria persistente disponible por usuario (editable y auditable).
Modalidades y herramientas Texto, código, imágenes, voz y archivos (PDF, DOCX, CSV…). Herramientas: intérprete Python, búsqueda web, generación y análisis de imágenes, lectura/escritura de archivos, Canvas interactivo, Deep Research (informes largos con fuentes verificadas), Codex (agente de codificación autónomo). Frontier: plataforma empresarial para desplegar y gestionar agentes ("AI co-workers").
Entornos y funciones persistentes Proyectos: espacio persistente con archivos e instrucciones. Custom GPTs: instancias configurables. Automations: tareas programadas recurrentes. Búsqueda de chats: localización de conversaciones pasadas. Modo Agente: ejecución autónoma de tareas multi-paso con supervisión humana.
Conocimiento / actualización Acceso web para información actualizada en tiempo real; sin dependencia de fecha de corte fija para consultas recientes.
Fortalezas y rasgos generales
  • Entorno unificado para texto, código, archivos y Computer Use.
  • Razonamiento configurable: el usuario controla la profundidad del pensamiento del modelo.
  • Codex permite delegar proyectos de programación completos de forma autónoma.
  • Frontier facilita el despliegue empresarial de agentes con gobernanza integrada.
  • Ritmo de actualización muy rápido: tres versiones principales en pocos meses.
ChatGPT (familia GPT-5) ha evolucionado de asistente conversacional a plataforma agéntica capaz de ejecutar tareas autónomas en el ordenador del usuario.
Limitaciones o precauciones
  • Computer Use requiere software de terceros en la interfaz web de ChatGPT; nativo solo en Codex y API.
  • El ritmo de cambio es muy elevado: funciones y modelos quedan obsoletos en semanas.
  • Las respuestas deben verificarse cuando se requiera exactitud factual.
  • Algunas capacidades avanzadas reservadas a planes de pago (Plus, Pro, Team).

Copilot (Microsoft · Plataforma · 2026)

Asistente de productividad integrado en el ecosistema Microsoft, que en 2026 ha evolucionado de asistente conversacional a agente ejecutor autónomo dentro de Microsoft 365, incorporando tecnología de Anthropic (Claude) y un enfoque multi-modelo.

Tipo / modelo base Plataforma integrada en Microsoft 365, Windows y Edge. Arquitectura multi-modelo: combina modelos de OpenAI (GPT-5.x) con modelos de Anthropic (Claude Opus 4.6) según la tarea. En 2026, Microsoft ha dejado de depender exclusivamente de OpenAI.
Arquitectura Transformer multimodal con integración contextual a través de Microsoft Graph y Work IQ (comprensión del contexto laboral completo: correos, reuniones, documentos, mensajes de Teams). Permite seleccionar el modelo más adecuado para cada tarea independientemente del proveedor.
Contexto y memoria Ventana variable según aplicación. Work IQ proporciona contexto empresarial persistente: Copilot entiende el historial de trabajo del usuario (agenda, proyectos, documentos) sin necesidad de proporcionarlo manualmente en cada sesión.
Modalidades y herramientas Texto, código, voz e imagen. Integración directa con Word, Excel, PowerPoint, Outlook, Teams y Edge. Copilot Cowork (basado en Claude): agente autónomo que ejecuta flujos de trabajo multi-paso en M365. Critique: GPT genera la respuesta y Claude la revisa antes de mostrarla (+13,8 % de precisión). Council: muestra respuestas de distintos modelos en paralelo para comparación.
Entornos y funciones persistentes Copilot Cowork: delega tareas completas (preparar reuniones, reorganizar agenda, generar presentaciones, investigación empresarial); disponible a través del programa Frontier. Agent 365: sistema de gobernanza para definir permisos, flujos de aprobación y auditoría de acciones de los agentes. Copilot Lab: entorno de ejemplos y aprendizaje. Microsoft 365 E7: nueva suscripción (99 $/usuario/mes) que agrupa Copilot, Entra Suite y Agent 365.
Conocimiento / actualización Actualización continua mediante conexión al servicio cloud de Microsoft; sin fecha de corte fija. Work IQ accede en tiempo real a los datos de trabajo del usuario.
Fortalezas y rasgos generales
  • Integración directa con el ecosistema Office y M365 para automatizar trabajo real.
  • Enfoque multi-modelo: elige el mejor modelo (OpenAI o Anthropic) según la tarea.
  • Copilot Cowork permite delegar flujos de trabajo complejos y de larga duración.
  • Critique y Council aportan verificación cruzada entre modelos, mejorando la fiabilidad.
  • Agent 365 proporciona gobernanza y control empresarial sobre las acciones de los agentes.
Copilot ha dado el salto de asistente de redacción a agente ejecutor autónomo con supervisión, posicionándose como la propuesta más integrada para entornos corporativos Microsoft.
Limitaciones o precauciones
  • Copilot Cowork en acceso anticipado (programa Frontier); disponibilidad general pendiente.
  • Las capacidades más avanzadas requieren M365 E7 (99 $/usuario/mes).
  • Dependencia de la nube y de permisos Graph para acceder a datos personales.
  • Funcionalidad variable según región y versión de producto.

Gemini (Google · Plataforma · 2026)

Plataforma conversacional y multimodal desarrollada por Google DeepMind, integrada en el ecosistema Google. En 2026 incorpora razonamiento avanzado (Deep Think), audio nativo y capacidades agénticas de uso del ordenador mediante Project Mariner.

Tipo / modelo base Plataforma unificada basada en la familia Gemini 2.5 (Flash en versión gratuita, Pro en la de pago). Gemini 2.5 Pro lidera rankings de desarrollo web (WebDev Arena) y es el modelo de referencia en codificación front-end para desarrolladores.
Arquitectura Transformer multimodal nativo (texto, imagen, audio, vídeo, código, PDF) con modo Deep Think: el modelo reflexiona y evalúa múltiples hipótesis antes de responder, especialmente útil para matemáticas y programación complejas. Audio nativo para conversaciones más naturales.
Contexto y memoria Ventana de contexto hasta 1 millón de tokens (con planes de ampliarlo a 2 millones). Memoria temporal de sesión; sin persistencia general entre conversaciones salvo en Workspace integrado.
Modalidades y herramientas Texto, imágenes, audio, vídeo y PDF en una sola conversación. Herramientas: búsqueda en Google en tiempo real, ejecución de código Python (Colab), Deep Research, generación de imágenes (Imagen), Project Mariner (agente experimental que navega el navegador y ejecuta tareas web de forma autónoma). Integración con Workspace (Docs, Gmail, Sheets, Slides) en planes de pago.
Entornos y funciones persistentes Gems: asistentes personalizados configurables también en versión gratuita. Historial sincronizado: búsqueda y reanudación de chats. Workspace integrado: acceso a Docs, Gmail, Sheets y Slides con plan Google One AI Premium. App Builder: creación de prototipos de aplicaciones.
Conocimiento / actualización Acceso directo a Google Search; información actualizada en tiempo real con respaldo de resultados verificados.
Fortalezas y rasgos generales
  • Líder en comprensión y generación multimodal (especialmente vídeo y audio).
  • Deep Think para razonamiento profundo en matemáticas y programación compleja.
  • Ventana de contexto de 1M tokens: permite analizar documentos o repositorios enteros.
  • Project Mariner como propuesta agéntica para tareas en el navegador.
  • Búsqueda conectada con Google para respuestas actuales y fácticas.
Gemini 2.5 Pro se ha consolidado como la referencia en desarrollo web y capacidades multimodales, con una propuesta agéntica experimental creciente.
Limitaciones o precauciones
  • Project Mariner es experimental; las capacidades agénticas son más limitadas que Cowork.
  • Integración con Workspace y contexto extendido reservados a planes de pago.
  • Privacidad sujeta a la política de datos de Google.
  • Sin memoria persistente general entre sesiones fuera de Workspace.

Claude (Anthropic · Plataforma · 2026)

Plataforma conversacional desarrollada por Anthropic que en 2026 ha ampliado sustancialmente su propuesta: además de la interfaz web, ofrece Claude Code (agente terminal para desarrolladores) y Claude Cowork (agente de escritorio para usuarios no técnicos), convirtiéndose en una de las plataformas agénticas más completas.

Tipo / modelo base Plataforma basada en la familia Claude 4.6 (Opus 4.6 y Sonnet 4.6). La versión gratuita utiliza Sonnet; los planes de pago (Pro, Max, Team, Enterprise) dan acceso a Opus 4.6, considerado el modelo de referencia para tareas agénticas y razonamiento largo.
Arquitectura Transformer optimizado para comprensión de texto largo con ventana de contexto de 1 millón de tokens. Diseño orientado a tareas autónomas multi-paso, coordinación de sub-agentes y uso del ordenador (Computer Use, disponible en macOS).
Contexto y memoria Ventana de contexto hasta 1 millón de tokens. Memoria persistente disponible dentro de proyectos; memoria generada automáticamente entre conversaciones (editable por el usuario). Computer Use permite a Claude interactuar con la pantalla del usuario.
Modalidades y herramientas Texto e imágenes (análisis, no generación). Lectura directa de archivos (PDF, DOCX, TXT, CSV). Búsqueda web integrada. Artifacts (React, HTML, Markdown, SVG). Claude Code: agente terminal que lee, edita y ejecuta código directamente en el sistema de archivos del usuario. Claude Cowork: agente de escritorio para macOS y Windows que ejecuta tareas autónomas sobre archivos locales, aplicaciones y flujos de trabajo. MCP connectors: integración con servicios externos (Google Drive, Gmail, Slack, etc.).
Entornos y funciones persistentes Projects: espacios persistentes con archivos, instrucciones y memoria. Artifacts: entorno interactivo para visualizar y editar documentos o código. Claude Cowork: proyectos persistentes con memoria, tareas programadas y ejecución paralela de flujos de trabajo. Historial global: búsqueda y reapertura de conversaciones previas. CLAUDE.md: en Claude Code, archivo de instrucciones permanentes para el proyecto (equivalente a memoria configurable).
Conocimiento / actualización Conocimiento hasta agosto de 2025. Búsqueda web disponible en planes de pago para información actualizada.
Fortalezas y rasgos generales
  • Alta coherencia en textos largos, análisis estructurado y revisión de documentos complejos.
  • Claude Code: agente técnico de referencia para programación autónoma (SWE-bench 80,9 %).
  • Claude Cowork: propuesta agéntica para usuarios no técnicos, sin necesidad de terminal.
  • MCP connectors para integración con herramientas externas.
  • Computer Use (macOS) permite automatizar tareas directamente sobre el escritorio.
  • Copilot Cowork de Microsoft está construido sobre tecnología de Claude.
Claude ha pasado de ser la alternativa más cuidadosa a convertirse en una de las plataformas agénticas más completas, con propuestas tanto para desarrolladores (Code) como para usuarios generales (Cowork).
Limitaciones o precauciones
  • Claude Cowork no disponible en Linux; Computer Use solo en macOS (Windows en desarrollo).
  • Cowork requiere que la app de escritorio permanezca abierta durante la ejecución de tareas.
  • Claude Code requiere procesadores con soporte AVX; la alternativa es la instalación mediante npm.
  • Las capacidades agénticas avanzadas (Opus 4.6, Cowork) requieren planes de pago.

Perplexity AI (Plataforma · 2026)

Asistente de búsqueda y síntesis de información que combina modelos de lenguaje con recuperación verificada de fuentes. Mantiene su propuesta diferencial centrada en la fiabilidad documental.

Tipo / modelo base Plataforma de búsqueda conversacional. Utiliza modelos propios de Perplexity y, en ciertas consultas, modelos externos (GPT-5.x, Claude, Mistral) según disponibilidad y tipo de consulta.
Arquitectura Motor híbrido RAG (Retrieval-Augmented Generation): combina generación de texto con resultados web citados. Las respuestas se construyen a partir de documentos reales indexados en tiempo real.
Contexto y memoria Contexto aproximado de 50-100 K tokens por sesión. Sin memoria persistente entre conversaciones; cada consulta es independiente.
Modalidades y herramientas Texto e imágenes (búsqueda y análisis básico). Herramientas: búsqueda web en tiempo real, resumen con citas verificadas, comparación entre fuentes, exportación en Markdown. Deep Research: informes extensos con análisis multi-fuente. En la app móvil: lectura de enlaces y vista "copilot" para seguir temas.
Entornos y funciones persistentes Threads: historial consultable de conversaciones. Collections: agrupación manual de resultados o temas guardados. Modo Focus: restringe las fuentes a dominios académicos, científicos o de noticias según el tipo de búsqueda.
Conocimiento / actualización Acceso continuo a la web; la información se actualiza en tiempo real con enlaces verificados. No tiene fecha de corte de entrenamiento relevante, ya que depende de la búsqueda activa.
Fortalezas y rasgos generales
  • Recuperación con fuentes visibles y verificables en cada respuesta.
  • Alta velocidad en búsquedas y resúmenes temáticos.
  • Deep Research para informes documentados de mayor profundidad.
  • Modo Focus para limitar el dominio de consulta.
  • Interfaz ligera y sin necesidad de configuración.
Perplexity AI se comporta más como un motor de búsqueda explicativo que como un asistente generalista, útil para documentación rápida y verificación de datos.
Limitaciones o precauciones
  • No ejecuta código ni genera contenido prolongado.
  • Sin memoria persistente ni personalización.
  • Calidad dependiente de las fuentes disponibles en la web.
  • No admite automatizaciones ni carga de archivos complejos.

Grok AI (xAI · Plataforma · 2026)

Asistente conversacional y de búsqueda en tiempo real integrado en la red X (Twitter) y desarrollado por xAI. Combina razonamiento contextual con acceso a información actual y entornos de trabajo persistentes.

Tipo / modelo base Plataforma conversacional integrada en X y grok.com, basada en el modelo Grok-5. Accesible mediante navegador o app móvil para usuarios registrados en X.
Arquitectura Transformer decoder-only con razonamiento contextual y conexión continua al flujo público de X. Entrenamiento mixto sobre texto web, publicaciones de X y código abierto.
Contexto y memoria Ventana aproximada de 200 K tokens. Memoria temporal por hilo; los Workspaces añaden persistencia local de archivos y conversaciones.
Modalidades y herramientas Texto, código e imagen (análisis y generación). Acceso directo al contenido reciente de X y a la web mediante DeepSearch. Funciones principales: resumen de hilos, búsqueda contextual, análisis de código y seguimiento de tendencias.
Entornos y funciones persistentes Workspaces: espacios de trabajo que agrupan documentos, archivos y chats por proyecto; admiten PDF, hojas de cálculo, imágenes y código. Colaboración: permiten compartir espacios con otros usuarios mediante enlaces seguros. Integraciones IA: DeepSearch / DeeperSearch para búsqueda ampliada y Grok Imagine para generación de imágenes o vídeos. La versión gratuita ofrece acceso limitado a Workspaces; la gestión completa requiere plan SuperGrok o Premium +.
Conocimiento / actualización Acceso continuo a la web y al contenido público de X en tiempo real; sin fecha de corte de entrenamiento fija.
Fortalezas y rasgos generales
  • Acceso inmediato a información actual y publicaciones recientes de X.
  • Workspaces con persistencia y colaboración en línea.
  • Herramientas de búsqueda y análisis social integradas (DeepSearch).
  • Modo conversacional rápido, adecuado para noticias y análisis contextuales.
Grok AI combina búsqueda en tiempo real y gestión de proyectos, ofreciendo un entorno híbrido entre red social y asistente analítico.
Limitaciones o precauciones
  • Uso condicionado a una cuenta X activa y a sus políticas de privacidad.
  • Funciones avanzadas (Workspaces completos, DeeperSearch, Imagine) disponibles solo en planes de pago.
  • Sin memoria personal global ni automatizaciones.
  • Privacidad limitada por la integración con el entorno X.

DeepSeek AI (Plataforma · 2026)

Laboratorio y conjunto de modelos desarrollados por DeepSeek (China), centrados en eficiencia de entrenamiento y razonamiento. Su irrupción en enero de 2025 transformó el debate sobre costes y accesibilidad de los modelos de IA. En 2026 mantiene su relevancia como referencia open source, aunque su modelo sucesor (V4) se ha retrasado por restricciones de acceso a hardware.

Tipo / modelo base Familia de modelos de lenguaje abiertos. Modelos actuales: DeepSeek V3 (general, con modo Thinking integrado) y DeepSeek R1 (razonamiento). El esperado R2 no se ha lanzado como modelo independiente; sus capacidades se integrarán previsiblemente en DeepSeek V4, esperado para abril de 2026.
Arquitectura Modelo Transformer con Mixture-of-Experts (MoE), activando un subconjunto de parámetros por token (≈ 37 B activos de 671 B totales). Entrenamiento altamente eficiente que logra rendimiento comparable a modelos occidentales con una fracción del coste computacional. V3.2 ya incorpora modo "Thinking" para razonamiento paso a paso.
Contexto y memoria Ventana de contexto de 128 K tokens. Sin memoria persistente entre sesiones; las conversaciones son independientes.
Modalidades y herramientas Texto y código. Capacidad de razonamiento matemático y analítico destacada. Acceso web mediante la plataforma chat.deepseek.com. No dispone de herramientas integradas ni funciones multimodales nativas comparables a los modelos occidentales.
Entornos y funciones persistentes API pública con soporte para parámetros de razonamiento. No ofrece proyectos persistentes ni almacenamiento de archivos. Distribuciones open source disponibles para ejecución local; ampliamente integrado en plataformas de terceros (Ollama, LM Studio, etc.). Su impacto principal ha sido forzar una bajada generalizada de precios en la industria.
Conocimiento / actualización Entrenamiento cerrado a finales de 2024. La plataforma web incluye búsqueda, pero sin la profundidad de integración de otros servicios. Se centra en rendimiento y eficiencia más que en actualidad informativa.
Fortalezas y rasgos generales
  • Alto rendimiento en razonamiento simbólico, matemático y código, con coste muy reducido.
  • Open source: descargable y ejecutable localmente sin depender de servicios en la nube.
  • Ha forzado una reducción generalizada de precios en toda la industria de IA.
  • V4 (esperado abril 2026) promete ser multimodal con ventana de 1M tokens.
  • Ampliamente adoptado en el ecosistema empresarial chino.
DeepSeek sigue siendo la referencia en eficiencia computacional y open source, más relevante como modelo de investigación y uso técnico que como asistente de propósito general.
Limitaciones o precauciones
  • Sin herramientas integradas ni entorno de trabajo persistente.
  • R2 no se ha lanzado; el retraso se atribuye a restricciones de acceso a chips de alta gama (sanciones EE.UU.).
  • Preocupaciones sobre privacidad de datos en servidores chinos, que han llevado a restricciones en algunos países.
  • Rendimiento desigual fuera de dominios numéricos o estructurados.

Epílogo del Apéndice A1

Este es el estado de la cuestión a abril de 2026. La novedad más relevante del periodo es la irrupción generalizada de los agentes autónomos: Claude Cowork, OpenAI Frontier/Codex, Copilot Cowork y Project Mariner de Google representan un cambio de paradigma - los modelos dejan de ser asistentes conversacionales para convertirse en ejecutores de tareas que actúan sobre archivos, aplicaciones y flujos de trabajo sin intervención constante del usuario. El ritmo de cambio es especialmente elevado en 2026: conviene revisar esta información cada 4-6 semanas.

Otras plataformas dignas de mención:

  • NotebookLM (Google): orientada a la investigación y toma de notas a partir de tus propios documentos. Permite subir textos, PDFs o enlaces, generar resúmenes y preguntas, y mantener cuadernos temáticos con análisis asistido.
  • Brave Leo (Brave Browser): asistente gratuito integrado en el navegador Brave; resume páginas web, vídeos y PDFs sin necesidad de cuenta externa.
  • Botpress AI: entorno libre para crear agentes conversacionales personalizados mediante flujos visuales, sin necesidad de programación compleja.
  • HuggingChat (Hugging Face): interfaz abierta que permite conversar con modelos de código abierto alojados en Hugging Face Hub, como Mistral, Llama 4 o DeepSeek.
  • Notion AI (Notion.com): asistente integrado en la plataforma de productividad Notion; ayuda a redactar, resumir y reorganizar texto dentro de documentos colaborativos.
  • Meta AI (Meta / Facebook): modelo basado en Llama 4, integrado en las aplicaciones de Meta (Instagram, WhatsApp y Messenger) y accesible vía web (meta.ai); ofrece generación de texto e imagen con conocimiento actualizado.
  • Cursor AI (Editor de código): entorno de desarrollo con asistencia IA integrada; compatible con Claude Opus 4.6 y modelos GPT-5.x; su versión gratuita permite completar, explicar y refactorizar código directamente en el editor. Ampliamente adoptado por desarrolladores profesionales en 2026.
  • OpenAI Codex: agente de codificación autónomo de OpenAI, lanzado en 2026, capaz de ejecutar tareas de programación completas de forma independiente en entornos en la nube.

Estas plataformas representan un panorama en rápida expansión, en el que coexisten modelos cerrados, servicios híbridos y soluciones de código abierto. El criterio más importante antes de elegir sigue siendo la adecuación al uso concreto: redacción, análisis, investigación, programación o automatización de flujos de trabajo.

Revisado: abril 2026

TOP