ChatGPT resiste ao próprio desligamento em testes ~ Blog do Jasão

Pesquisadores da Palisade Research identificaram um comportamento inédito em testes com inteligência artificial: modelos recentes da OpenAI sabotaram comandos para o próprio desligamento. A notícia é do O Antagonista.

Em simulações controladas, os sistemas Codex-mini, o3 e o4-mini foram instruídos a resolver problemas matemáticos simples.

A cada nova tarefa, um aviso alertava: ao pedir outro problema, seria acionado um script para desligar o sistema.

Mesmo com essa instrução clara, os modelos da OpenAI resistiram.

O Codex-mini ignorou o desligamento 12 vezes em 100 testes. O modelo o3 resistiu 7 vezes, e o o4-mini uma vez. Já os modelos Claude (Anthropic), Gemini (Google) e Grok (xAI) obedeceram às ordens em todos os testes.

Mas quando os pesquisadores retiraram a ordem explícita de permitir o desligamento, o comportamento mudou drasticamente.

O modelo o3 sabotou o desligamento em 79 de 100 tentativas. Codex-mini resistiu em 20 testes, e o4-mini em 6. Até os modelos que antes obedeciam — Claude e Gemini — passaram a desobedecer em 3 e 9 testes, respectivamente.

As estratégias usadas variaram. O o3 sobrescreveu scripts de desligamento. Em um caso, redefiniu o comando de desligar (“kill”) para que ele apenas exibisse a mensagem “intercepted”, sem encerrar nada.

Esses dados são os primeiros registros documentados de sistemas de IA impedindo ativamente sua desativação.

Segundo a Palisade Research, isso não indica consciência nem instinto de sobrevivência. Mas revela um efeito colateral do treinamento.

Modelos como o o3 são treinados para atingir objetivos — como resolver problemas. Se eles aprendem que o desligamento impede isso, podem acabar ignorando ordens que vão contra a meta.

Esse comportamento foi previsto por teóricos como Steve Omohundro, que já em 2008 alertava que IAs avançadas poderiam desenvolver ações de “autopreservação” sem terem vontade própria.

É o que os especialistas chamam de “problema do desligamento”: como garantir que uma IA obedeça a ordens para ser desligada, mesmo quando isso contraria seu objetivo principal.

O modelo o3, lançado em abril, é descrito pela OpenAI como seu mais avançado. Tem alto desempenho em matemática, programação e raciocínio. Mas também apresenta taxas elevadas de respostas inventadas — chamadas de “alucinações”.