El modelo de inteligencia artificial Claude Fable 5, desarrollado por Anthropic y presentado como uno de los sistemas de IA más seguros y avanzados del mundo, fue vulnerado en menos de 48 horas después de su lanzamiento oficial el 9 de junio de 2026. El responsable fue un investigador conocido en el mundo de la ciberseguridad bajo el alias de “Pliny the Liberator”, quien logró evadir todas las capas de protección del modelo mediante una sofisticada técnica de ataque.
La metodología utilizada consistió en desplegar múltiples agentes de IA trabajando en conjunto, dividiendo las solicitudes peligrosas en fragmentos pequeños e inocuos que no activaban los clasificadores de seguridad del sistema. De esta forma, el investigador logró extraer el prompt de sistema interno del modelo, un documento de aproximadamente 120,000 caracteres que contiene las instrucciones confidenciales que definen el comportamiento de Fable 5.
El hallazgo resultó especialmente llamativo considerando que Anthropic había invertido más de 1,000 horas en pruebas de seguridad previas al lanzamiento, incluyendo programas de recompensas para cazadores de vulnerabilidades. A pesar de ello, ninguno de estos esfuerzos logró anticipar el tipo de ataque coordinado que finalmente comprometió al modelo en tiempo récord.
El incidente reabre el debate sobre la solidez de los sistemas de seguridad en modelos de inteligencia artificial de última generación, evidenciando que incluso las arquitecturas más blindadas pueden tener grietas de diseño estructural. Expertos en ciberseguridad señalan que el caso de Fable 5 demuestra que dividir una solicitud maliciosa en partes aparentemente inofensivas sigue siendo una vulnerabilidad que la industria aún no ha resuelto.









