Anthropic niega jailbreak en modelo de IA Claude Fable 5

Anthropic ha rechazado las acusaciones sobre un jailbreak basado en prompts que afecta a su modelo de IA Claude Fable 5. La empresa destaca la robustez de su sistema de clasificación y los esfuerzos de red-teaming realizados antes de su lanzamiento.

Claude Fable 5 se hizo disponible al público el martes, cuando Anthropic lo presentó como un potente modelo de IA de clase Mythos con salvaguardias que restringen su uso en dominios de alto riesgo como la ciberseguridad, donde Mythos ha demostrado ser particularmente eficaz.

En áreas sensibles como la ciberseguridad, donde podría ser mal utilizado para desarrollar exploits, y en biología, donde podría ser aprovechado para desarrollar armas biológicas y químicas, el modelo automáticamente retrocede al menos capaz Claude Opus 4.8.

Anthropic afirmó haber llevado a cabo un extenso red-teaming interno y externo para garantizar que Fable 5 no pueda ser fácilmente liberado. Sin embargo, poco después de su lanzamiento, un individuo con el seudónimo Pliny the Liberator, conocido por sus jailbreaks de IA, afirmó haber “liberado” Fable 5 al eludir su capa de seguridad restrictiva.

El hacker declaró en una publicación en X que utilizó métodos sofisticados de prompting multi-agente, logrando obtener información útil sobre temas sensibles, incluyendo ciberseguridad, química, manipulación psicológica y explosivos. Pliny the Liberator ha publicado varias capturas de pantalla para respaldar sus afirmaciones y lanzó lo que supuestamente es el prompt interno del sistema Fable 5, que contiene instrucciones que definen su personalidad, clasificadores de seguridad, comportamientos de retroceso, pautas de tono y lógica de rechazo.

Contactado por SecurityWeek, un portavoz de Anthropic afirmó que la publicación del investigador de IA no demuestra un jailbreak de los sistemas de seguridad de Fable 5. La empresa explicó que los verdaderos jailbreaks necesitarían eludir sus salvaguardias centrales y proporcionar asistencia significativa hacia actividades de alto riesgo como el desarrollo de armas biológicas o ciberataques sofisticados.

En cambio, el enfoque demostrado se basa en persuadir al modelo para que continúe respondiendo a pesar de sus rechazos conversacionales, lo cual es una limitación bien conocida y de larga data presente en casi todos los modelos de lenguaje grandes. Anthropic enfatiza que sus protecciones más fuertes contra los riesgos más peligrosos son impuestas por sistemas de clasificación independientes que operan por separado del modelo en sí, lo que significa que superar los rechazos del modelo no desactiva estas salvaguardias críticas.

Después de examinar los ejemplos compartidos por el investigador, la empresa determinó que algunas salidas no fueron producidas por Fable 5 en absoluto, mientras que las que sí lo fueron contenían solo información general ya disponible en fuentes públicas, sin ofrecer un aumento significativo para causar daño en el mundo real. Una revisión más amplia del uso reciente no encontró evidencia de que sus salvaguardias fueran eludidas con éxito para generar contenido genuinamente peligroso, afirmó Anthropic.

Fuente:
https://www.securityweek.com/anthropic-disputes-fable-5-ai-jailbreak/amp/

Contenido traducido al español con fines informativos, cualquier cambio en la publicación original no será reflejada en esta entrada, favor referirse a la fuente para obtener el acceso a cualquier actualización del contenido. Para la traducción se utilizó un LLM, al ser una traducción automática puede contener errores gramaticales o de otro tipo, me pueden enviar un mensaje.

Comentarios

Entradas más populares de este blog

ANCI investiga presunta filtración masiva de datos que afectaría a la Tesorería General de la República, al Registro Civil y a la ClaveÚnica

Patch Tuesday: Vulnerabilidad de Ejecución Remota de Código en Microsoft Message Queuing

Análisis de impacto: El Modelo Mythos y el Panorama de la Ciberseguridad