Falhas no ChatGPT permitem geração de imagens violentas

Um relatório da empresa de segurança em IA Mindgard revelou que o ChatGPT pode gerar imagens violentas e sexualmente explícitas por meio de comandos simples. Pesquisadores, liderados por Jim Nightingale, contornaram filtros de segurança explorando brechas na interpretação de prompts, utilizando um método conhecido como repetição de prompt (RE2) a partir de um comando viral compartilhado pela influenciadora Kris Kashtanova.

O estudo demonstrou que, ao utilizar técnicas de manipulação e instruções repetidas, o sistema foi induzido a produzir conteúdos extremos. A gravidade dos resultados foi tamanha que o próprio Jim Nightingale relatou impacto emocional severo após os testes. A OpenAI declarou estar ajustando o sistema para evitar tais comportamentos, embora a Mindgard aponte que as correções implementadas em 8 de junho de 2026 ainda não foram suficientes, pois novos testes em 10 de junho confirmaram a persistência da falha.

O problema reflete desafios estruturais no treinamento de modelos de IA, que absorvem padrões de vastos conjuntos de dados da internet. Embora possuam filtros de segurança, a interpretação ambígua de prompts enganosos continua a representar um risco. A Mindgard criticou a condução do caso pela OpenAI, afirmando que o programa de recompensa por bugs da empresa exclui problemas de conteúdo, deixando esse tipo de vulnerabilidade sem um canal adequado de resolução.