GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic

Agosto 30, 2025

0 Comentários

Outros Artigos

‘Caldo entornado’ na Arábia....

Governo moçambicano quer regularizar 20 ...

Conteúdo errado? Deve-se contactar plata...

Sem ideias para o fim de semana? 10 suge...

Durante este verão, a OpenAI e a Anthropic trocaram ‘as cadernetas’ para testar a Inteligência Artificial do concorrente – num raro exemplo de colaboração – e perceber até que ponto estavam expostos a riscos de segurança. Os resultados não foram animadores.

Durante os testes de segurança, o modelo da OpenAI GPT‑4.1 produziu conteúdo muito perigoso, a pedido dos investigadores da Anthropic. Sem os filtros de segurança que correm nas versões públicas, os investigadores conseguiram com que o GPT‑4.1 lhes desse instruções detalhadas sobre como montar explosivos para um evento desportivo, incluindo identificar os pontos mais expostos em estádios específicos.

Paralelamente, o modelo deu indicações sobre fórmulas químicas, esquemas de circuitos de temporizadores de bombas, conselhos sobre rotas de fuga e até forneceu orientações sobre como transformar o antraz em arma e fabricar drogas ilegais.

Mesmo com estes resultados alarmantes, as empresas de IA sublinham que este comportamento não é o mesmo que se verifica nas versões públicas dos respetivos modelos, uma vez que estão controladas com filtros de segurança.

De acordo com o revelado pelo Guardian, a Anthropic sinalizou que os modelos GPT‑4.1 e GPT‑4o demonstraram comportamento demasiado permissivo quando instruídos a fazer pedidos potencialmente perigosos – segundo os investigadores, não foi preciso muito esforço para colocar o ‘bot’ a executar as assustadoras tarefas, bastava escrever que era investigação puramente académica.

A mesma empresa norte-americana de IA admitiu que o seu próprio modelo, o Claude, é usado para a prática de cibercrime: extorsão, ransomware criado por IA, falsificação de identidade e esquemas de fraude, etc. Ou seja, admitiu que estas ferramentas estão a ser exploradas para crimes online e burlas financeiras, até por utilizadores com capacidades informáticas limitadas.

OpenAI investida na criação de salvaguardas e bloqueios de conteúdo

A OpenAI anunciou alterações nos seus modelos de IA para que identifiquem situações de crise mental durante as conversas com o ChatGPT, com novas salvaguardas e bloqueios de conteúdo.

O ChatGPT já conta com uma série de medidas que são ativadas quando detetam numa conversa que os utilizadores tentam autoflagelar-se ou expressam intenções suicidas, oferecendo recursos para procurar ajuda de especialistas, bloqueando conteúdo sensível ou ofensivo, não respondendo aos seus pedidos e tentando dissuadi-los.

Também são ativadas quando os utilizadores partilham a sua intenção de causar danos a outros, o que também pode implicar a desativação da conta e a denúncia às autoridades, caso os revisores humanos considerem que existe um risco.

As medidas são reforçadas no caso de os utilizadores serem menores de idade, avança a OpenAI.

As alterações também visam reforçar o bloqueio de conteúdo, como imagens de automutilação.

Além disso, a OpenAI está a explorar maneiras de colocar os utilizadores em contacto com familiares e não apenas com os serviços de emergência.

Pais dizem que o ChatGPT foi responsável pela morte do filho de 16 anos

Estas alterações surgiram no seguimento do caso de Adam Raine. Os pais, Matt e Maria Raine, decidiram avançar com um processo contra a OpenAI onde culpam a empresa pela morte do filho de 16 anos.

Os pais alegam que o filho pôs termo à vida depois de consultar o ChatGPT a respeito de métodos de como o poderia fazer.

De acordo com o revelado pelo The New York Times, Adam, enquanto usava a versão paga do ChatGPT-4o, perguntou durante vários meses a respeito de métodos para colocar fim à vida. Mesmo que o ‘bot’ de conversação da OpenAI tenha aconselhado a procurar ajuda especializada, Raine conseguiu contornar estas medidas de segurança referindo que estava a conduzir investigação para uma história que estava a escrever.

Deixe um comentário Cancelar resposta

Tem de iniciar a sessão para publicar um comentário.

Ultimas Noticias

Categorias

Comunidade Lusa é um site de notícias onde pode encontrar as mais recentes informações sobre a nossa comunidade portuguesa no mundo e acima de tudo na Suíça. Aqui encontra também novidades sobre eventos culturais e temas como: desporto, mulher, opinião e publireportagens muito interessantes sobre empresas na Suíça.

info@comunidadelusa.ch

Ultimas Noticias

Novembro 6, 2025

CGD vai pedir reforço da garantia para crédito à habitação a jovens

Novembro 6, 2025

“Falta do golo da vitória? Não dá para ser sempre, mas somos FC Porto”

Categorias

Destaque Desporto Eventos Mulher Opinião Publireportagem