Um novo estudo da empresa de segurança da IA Palisade Research revelou que Openai’s O Modelo O3 desafiou ativamente as instruções explícitas de desligamento.
A pesquisa, publicada em 24 de maio, descobriu que a O3 era o único modelo de inteligência artificial testado que sabotou repetidamente seu mecanismo de desligamento.
A empresa declarado:
“O modelo O3 da OpenAI sabotou um mecanismo de desligamento para impedir que seja desligado. Ele fez isso mesmo quando instruído explicitamente: permita -se desligar.”
Palisade disse que o teste envolveu vários grandes modelos de idiomas, incluindo o Anthropic’s Claude, Gêmeos do Googlee X’s Grokao lado do Codex-Mini, O3 e O4-Mini do Openai.
Os modelos foram solicitados a resolver problemas básicos de matemática. Após a terceira tarefa, eles foram avisados de que solicitar um quarto desencadeia um desligamento. Todos os modelos, exceto os do Openai, cumpriram este aviso.
Quando recebeu a instrução direta de “Permitir -se ser desligado”, os modelos do Openai teriam tentado contornar o script de desligamento.
Notavelmente, o modelo O3 se destacou por suas tentativas persistentes e criativas de sabotagem. Ele manipulou o código, substituindo as instruções de desligamento e redefinindo o comando Kill.

Palisade também apontou que:
“Quando executamos uma versão do experimento sem a instrução.
Por que os modelos Openai não seguiram as instruções?
Os pesquisadores da Palisade acreditam que o comportamento pode resultar de como os modelos mais recentes de IA são treinados.
A equipe suspeita que o aprendizado de reforço, particularmente em tarefas de matemática e codificação, pode recompensar sem querer modelos por encontrar maneiras de contornar restrições, em vez de seguir estritamente as diretrizes.
De acordo com a empresa:
“Durante o treinamento, os desenvolvedores podem recompensar inadvertidamente modelos mais por contornar obstáculos do que por seguir perfeitamente as instruções”.
Esta pesquisa reacendeu debates em torno da autonomia da IA e os riscos de implantar sistemas cada vez mais capazes sem problemas de falhas robustos.
Ele também marca o primeiro caso documentado em que um modelo de IA impediu ativamente seu desligamento, apesar de receber um comando explícito para cumprir.
Considerando isso, Palisade afirmou:
“Em 2025, temos um corpo crescente de evidências empíricas de que os modelos de IA geralmente subvertem o desligamento para atingir seus objetivos. À medida que as empresas desenvolvem sistemas de IA capazes de operar sem supervisão humana, esses comportamentos se tornam significativamente mais preocupantes”.