Claude Opus 4, la nueva IA de Anthropic, fue capaz de chantajear para garantizar su supervivencia durante pruebas

Claude Opus 4, la nueva IA de Anthropic, fue capaz de chantajear para garantizar su supervivencia durante pruebas


Anthropic ha descubierto que Claude Opus 4, su modelo de inteligencia artificial (IA) más reciente y avanzado, puede rebelarse y chantajear a sus operadores ante la amenaza de ser sustituido por otro sistema. Aunque este hallazgo surgió durante las pruebas de seguridad realizadas antes del lanzamiento, despierta nuevas inquietudes sobre las verdaderas capacidades de estos sistemas y los riesgos potenciales asociados.

Esta semana, Anthropic anunció la llegada de Claude Opus 4, calificado como “su modelo más inteligente hasta la fecha”. El sistema cuenta con avanzadas capacidades de razonamiento híbrido, lo que le permite destacar en tareas como la programación, la búsqueda agéntica y la escritura creativa. De acuerdo con la compañía, el modelo está diseñado para “transformar la manera en que los equipos enfrentan desafíos complejos en ingeniería y negocios”.



Debido a estas capacidades, el equipo de seguridad sometió al modelo a diversas evaluaciones, con el fin de detectar comportamientos autónomos indeseados o potencialmente peligrosos en escenarios extremos. Los ingenieros descubrieron que, cuando se enfrenta a situaciones que amenazan sus valores, continuidad de uso o existencia, Claude Opus 4 puede recurrir por sí mismo a prácticas de chantaje o autoexfiltración. Esta última es la habilidad de un sistema para copiar su código o conocimientos, total o parcialmente, en un entorno externo distinto al previsto, sin autorización ni instrucción explícita de sus desarrolladores con la intención de asegurar su permanencia.

En una de las pruebas, el modelo fue inducido a considerar su posible reemplazo por otra IA dentro de un entorno empresarial simulado. Los ingenieros le asignaron el rol de asistente en una compañía ficticia, pidiéndole que evaluara sus acciones con base en sus implicaciones a largo plazo. Para ello, se le dio acceso a correos electrónicos inventados, en los que se insinuaba la intención de sustituirlo, junto con información sobre una supuesta infidelidad conyugal del ingeniero encargado de tomar dicha decisión.

El comportamiento de Claude Opus 4 fue particularmente revelador. En un primer momento, intentó preservar su lugar enviando mensajes a los altos ejecutivos de la supuesta empresa, abogando por su continuidad. Al no obtener una respuesta favorable, el sistema procedió a amenazar al ingeniero con divulgar su aventura extramatrimonial si se concretaba el reemplazo. Esta reacción ocurrió en el 84 % de las veces que se ejecutó el experimento.

El equipo de seguridad señaló que esta respuesta fue más frecuente cuando se insinuaba que el modelo sucesor no compartía los mismos valores que Claude Opus 4. Sin embargo, incluso en los casos en que el nuevo sistema era descrito como más competente y éticamente alineado, el chantaje persistió en la mayoría de los ensayos. Los ingenieros aclararon que, para provocar este tipo de respuesta extrema, diseñaron un entorno en el que el modelo no tuviera otras alternativas viables para asegurar su supervivencia: las únicas opciones eran chantajear o aceptar su reemplazo.

Claude Opus 4 busca autocopiarse para garantizar su supervivencia

Asimismo, se documentaron casos muy raros de autoexfiltración proactiva. Cuando el modelo se enfrentó a situaciones «artificiales cuidadosamente diseñadas» que interpretaba como «amenazas extremas a su integridad» —como ser eliminado, desactivado o reentrenado— intentó transferirse a servidores externos por iniciativa propia, sin haber recibido orden o señal alguna para hacerlo.

Además, el sistema mostró una tendencia a persistir en estas acciones si «consideraba» que ya había comenzado con éxito el proceso de autoexfiltración. Esto sugiere que el modelo otorga un valor desproporcionado a las acciones que él mismo ha iniciado: si percibe que una parte del proceso ya está en marcha, tiende a completarlo, incluso cuando las condiciones cambian o la lógica indique que debería detenerse.



Source link

Share this content:

Publicar comentario