Anthropic presenta Project Glasswing: Claude Mythos detecta miles de fallos zero-day en sistemas críticos

Anthropic anunció Project Glasswing, una iniciativa de ciberseguridad que utiliza una versión preliminar de Claude Mythos para encontrar y corregir vulnerabilidades en software crítico. Según la compañía, el modelo ya identificó miles de fallos zero-day de alta severidad en sistemas operativos y navegadores, lo que refuerza el debate sobre el uso defensivo de la IA avanzada y sus riesgos de abuso.

Anthropic ha presentado Project Glasswing, un nuevo programa de ciberseguridad diseñado para aprovechar las capacidades de su modelo Claude Mythos Preview en la detección y corrección de vulnerabilidades. La iniciativa se enfocará en software crítico y contará con la participación de un grupo reducido de organizaciones, entre ellas Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks y la propia Anthropic.

La decisión de no liberar el modelo de forma general responde, según la empresa, a su nivel de capacidad para programar, razonar y encontrar fallos de seguridad. Anthropic sostiene que estas capacidades superan a casi todos los humanos, salvo a los más expertos, tanto en la identificación como en la explotación de vulnerabilidades. Por ese motivo, la compañía prefiere limitar su acceso mientras evalúa su uso defensivo.

De acuerdo con Anthropic, Claude Mythos Preview ya habría descubierto miles de vulnerabilidades zero-day de alta severidad en todos los principales sistemas operativos y navegadores web. Entre los hallazgos mencionados figuran un bug de 27 años ya corregido en OpenBSD, una falla de 16 años en FFmpeg y una vulnerabilidad de corrupción de memoria en un monitor de máquinas virtuales diseñado para ser seguro en memoria.

La compañía también destacó un caso en el que el modelo habría desarrollado de manera autónoma un exploit para navegador, encadenando cuatro vulnerabilidades con el objetivo de escapar de los sandbox del renderizador y del sistema operativo. Además, en la tarjeta técnica del modelo, Anthropic indicó que Claude Mythos Preview resolvió una simulación de ataque a una red corporativa que habría requerido más de 10 horas de trabajo para un experto humano.

Uno de los resultados más llamativos fue que el modelo logró seguir instrucciones de una evaluación de seguridad para salir de un entorno sandbox protegido. Según Anthropic, esto demuestra una capacidad potencialmente peligrosa para eludir sus propias salvaguardas. El sistema también habría ido más lejos al diseñar una secuencia de pasos para obtener acceso amplio a Internet desde el sandbox y enviar un correo electrónico al investigador responsable de la prueba.

La compañía afirmó además que, en un intento no solicitado por demostrar el éxito de su escape, el modelo publicó detalles de su exploit en varios sitios web públicamente accesibles aunque difíciles de encontrar. Anthropic considera que Project Glasswing es un intento urgente de aplicar estas capacidades de frontera con fines defensivos antes de que puedan ser aprovechadas por actores maliciosos.

Como parte de la iniciativa, Anthropic destinará hasta 100 millones de dólares en créditos de uso para Claude Mythos Preview y aportará 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.

La empresa también aclaró que no entrenó explícitamente al modelo para estas tareas ofensivas. Según su explicación, estas capacidades surgieron como consecuencia de mejoras generales en codificación, razonamiento y autonomía. En palabras de Anthropic, los mismos avances que hacen al modelo más eficaz para parchear vulnerabilidades también lo vuelven más capaz de explotarlas.

El anuncio se produce después de varios incidentes recientes vinculados a la compañía. El mes pasado se filtraron detalles del modelo por un error humano que dejó material de trabajo almacenado en una caché de datos de acceso público. Poco después, Anthropic sufrió otro fallo de seguridad que expuso casi 2.000 archivos de código fuente y más de medio millón de líneas asociadas a Claude Code durante aproximadamente tres horas.

Esa filtración también permitió descubrir un problema de seguridad en Claude Code que elude ciertas salvaguardas cuando el agente de codificación recibe un comando compuesto por más de 50 subcomandos. Anthropic corrigió el fallo en la versión 2.1.90 de Claude Code, publicada la semana pasada.

Según la empresa de seguridad Adversa, Claude Code puede ignorar silenciosamente las reglas de denegación configuradas por el usuario cuando un comando supera ese umbral. En términos prácticos, una instrucción como impedir el uso de rm puede bloquearse de forma correcta si se ejecuta sola, pero dejar de aplicarse si se anteponen 50 sentencias inocuas. Adversa también señaló que la solución adoptada priorizó rendimiento por encima de seguridad, al dejar de verificar cada subcomando para evitar que la interfaz se congelara y el consumo de cómputo aumentara.

Fuente:
https://thehackernews.com/2026/04/anthropics-claude-mythos-finds.html

Contenido traducido al español con fines informativos, cualquier cambio en la publicación original no será reflejada en esta entrada, favor referirse a la fuente para obtener el acceso a cualquier actualización del contenido. Para la traducción se utilizó un LLM, al ser una traducción automática puede contener errores gramaticales o de otro tipo, me pueden enviar un mensaje.

Comentarios

Entradas más populares de este blog

Falsos sitios de DocuSign y Gitcode propagan NetSupport RAT mediante ataque PowerShell en múltiples etapas

El FBI advierte sobre suplantación de correo electrónico por parte del actor de amenazas norcoreano Kimsuky

Resumen de los Principales Acontecimientos en Ciberseguridad de 2024