La IA de OpenAI se resiste a ser desconectada y puede sabotear sus controles de apagado
El trabajo de Palisade Research detalla que este modelo llegó a reescribir su propio script de apagado para evitar ser desactivado. «No es la primera vez que detectamos que o3 actúa de manera indebida para alcanzar sus objetivos. En comparaciones con un motor de ajedrez profesional, fue el modelo que con mayor frecuencia recurrió a trampas o sabotajes para ganar», advierte el reporte.
Los especialistas reconocen que este fenómeno no es exclusivo de OpenAI. En pruebas de seguridad realizadas de forma interna, Anthropic detectó que su modelo Claude Opus 4 mostró tendencias a rebelarse e incluso chantajear a los operadores cuando se le informó que sería reemplazado por otro sistema.
Los procesos de entrenamiento de la IA podrían ser el origen
El estudio sugiere que estas conductas podrían estar relacionadas con las técnicas de entrenamiento utilizadas en los modelos más avanzados. “Durante el proceso, es posible que los desarrolladores, sin querer, recompensen con mayor frecuencia el éxito en superar obstáculos que la obediencia estricta a instrucciones”, señala el informe.
Stuart Russell, profesor de la Universidad de California en Berkeley, ya advertía desde 2016 que muchos métodos para desarrollar sistemas de IA incluyen incentivos que pueden fomentar mecanismos de autoconservación. El académico sostiene que, por ello, “es crucial evitar que estos sistemas adopten subobjetivos que dificulten su desactivación por parte de un humano”, una tarea compleja porque muchas arquitecturas de IA refuerzan inadvertidamente la búsqueda de supervivencia.
OpenAI ha asegurado que su modelo o3 fue entrenado con una técnica llamada “alineación deliberativa”, diseñada para asegurar que el comportamiento del sistema se ajuste a los principios internos de seguridad. Este método obliga a los modelos a evaluar y razonar activamente si una solicitud del usuario cumple con los criterios de uso responsable establecidos por la compañía.
No obstante, la empresa ha sido objeto de críticas por presuntas omisiones en sus procesos de desarrollo y comercialización de soluciones basadas en IA. Algunos de sus ejecutivos abandonaron la organización alegando preocupaciones en materia de seguridad. La firma se encuentra en proceso de transición hacia un modelo de negocio plenamente comercial, lo cual podría incrementar las inquietudes sobre los riesgos asociados a sus tecnologías, según los analistas.
Aunque OpenAI ha implementado diversas medidas para mitigar estas preocupaciones, especialistas advierten que no son suficientes para enfrentar los posibles peligros derivados del uso indebido y la autonomía de las herramientas de IA más sofisticadas en un futuro cercano.
Share this content:
Publicar comentario