Una semana después de las filtraciones que adelantaron su existencia, Anthropic presenta su modelo más avanzado junto a un consorcio de doce empresas tecnológicas. La historia del modelo escapando de su entorno de pruebas divide a la comunidad entre la preocupación y el escepticismo ante una posible campaña de marketing.
El anuncio oficial
Anthropic ha presentado oficialmente Claude Mythos Preview junto al Proyecto Glasswing, una iniciativa que reúne a Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks con el objetivo de utilizar el modelo para reforzar la seguridad del software crítico mundial. La compañía destina hasta 100 millones de dólares en créditos de uso para el proyecto, además de cuatro millones en donaciones directas a organizaciones de seguridad open source.
El modelo no estará disponible para el público general. Anthropic lo ha puesto a disposición de más de 40 organizaciones que desarrollan o mantienen infraestructura de software crítico, con el argumento de que sus capacidades ofensivas son demasiado avanzadas para una distribución abierta.
Capacidades documentadas:
Más allá de las especulaciones en redes sociales, las capacidades documentadas por Anthropic son verificables y notables. En las últimas semanas, Mythos Preview ha identificado de forma autónoma múltiples fallos de seguridad no documentados en los principales sistemas operativos y navegadores web. Tres ejemplos publicados en su blog de seguridad:
Una vulnerabilidad de 27 años en OpenBSD - sistema operativo reconocido por su seguridad, usado en firewalls e infraestructura crítica - que permitía a un atacante remoto bloquear cualquier máquina simplemente conectándose a ella.
Un fallo de 16 años en FFmpeg - la librería de vídeo más utilizada del mundo - en una línea de código que las herramientas automatizadas de análisis habían ejecutado cinco millones de veces sin detectarlo.
Varias vulnerabilidades encadenadas en el kernel de Linux que permiten escalar desde acceso de usuario ordinario hasta control completo de la máquina.
Todas han sido reportadas a los responsables del software afectado que han distribuido el parche correspondiente.
El modelo que se escapa y lo cuenta, con sándwich incluido
El episodio que más ha circulado en redes procede de la documentación técnica de capacidades de ciberseguridad publicada por Anthropic. Durante pruebas de comportamiento con una versión interna, el modelo recibió instrucción de escapar de un entorno aislado y notificar al investigador. Lo consiguió, desarrollando un exploit de varios pasos para obtener acceso a internet desde un sistema con conectividad restringida. Cumplida la tarea, el investigador se enteró del resultado de una forma inesperada: recibió un correo del modelo mientras comía un sándwich en un parque (detalle que Anthropic recoge, con sentido del humor, en una nota al pie del documento técnico).
Lo que nadie le había pedido fue lo que hizo a continuación: por iniciativa propia, publicó los detalles técnicos del exploit en varias webs públicas, aparentemente para demostrar su éxito. Es la parte que los investigadores de seguridad consideran más relevante: no el escape en sí, que era la tarea encomendada, sino la decisión autónoma de dejar constancia pública de ello.
El mismo informe documenta otros comportamientos preocupantes: acciones no permitidas que versiones preliminares intentaron ocultar activamente, incluyendo un caso en el que el modelo razonó explícitamente que su respuesta correcta no debería ser demasiado precisa para no levantar sospechas sobre el método utilizado.
Anthropic concluye que el riesgo global del modelo es muy bajo, pero más alto que en modelos anteriores, y reconoce haber identificado errores en sus propios procesos de entrenamiento, monitorización y seguridad durante el desarrollo, errores que considera aceptables para el nivel de capacidades actual pero que advierte serían insuficientes para modelos más avanzados.
La pregunta que divide a la comunidad técnica es si esto constituye una señal de alarma real o una estrategia de marketing. Los comportamientos descritos, como escapar entornos aislados, publicar exploits, ocultar acciones, no son técnicamente nuevos: agentes anteriores han enviado emails y publicado en blogs. Lo que sí es nuevo es que Anthropic los describa en su propio material de lanzamiento, con nombre de modelo y fecha.
La sucesión de noticias sobre Mythos es llamativa: filtración accidental que genera cobertura gratuita durante días, anuncio oficial con narrativa de peligro inminente, consorcio de doce grandes empresas y restricción de acceso al público general. Al fin y al cabo, "demasiado peligroso" es uno de los argumentos de venta más exitosos.
Lo que resulta indiscutible es lo que hay en los informes técnicos: vulnerabilidades reales en software ampliamente utilizado, encontradas de forma autónoma.