Anthropic niega jailbreak en modelo de IA Claude Fable 5
Anthropic ha rechazado las acusaciones sobre un jailbreak basado en prompts que afecta a su modelo de IA Claude Fable 5. La empresa destaca la robustez de su sistema de clasificación y los esfuerzos de red-teaming realizados antes de su lanzamiento. Claude Fable 5 se hizo disponible al público el martes, cuando Anthropic lo presentó como un potente modelo de IA de clase Mythos con salvaguardias que restringen su uso en dominios de alto riesgo como la ciberseguridad, donde Mythos ha demostrado ser particularmente eficaz. En áreas sensibles como la ciberseguridad, donde podría ser mal utilizado para desarrollar exploits, y en biología, donde podría ser aprovechado para desarrollar armas biológicas y químicas, el modelo automáticamente retrocede al menos capaz Claude Opus 4.8. Anthropic afirmó haber llevado a cabo un extenso red-teaming interno y externo para garantizar que Fable 5 no pueda ser fácilmente liberado. Sin embargo, poco después de su lanzamiento, un individuo con el seudó...