Descobriram como obrigar o ChatGPT a fazer o que ele não quer

Já se sabe: na internet há sempre oportunidade para tudo… Até para contrariar o que a própria rede criou. Hitler surge na história.

O ChatGPT não é uma pessoa mas também consegue ser contrariado.

O novo amigo de milhões de pessoas (mais de 100 milhões de utilizadores em 3 meses), que dá respostas sobre tudo e mais alguma coisa, também faz coisas que não queria fazer.

Utilizadores do Reddit descobriram uma maneira “surpreendentemente inteligente” de fazer o ChatGPT fazer coisas que não quer, relata o portal Inc.

As respostas dúbias, ou mesmo erradas, as “alucinações”, já tinham sido visíveis neste modelo de linguagem da OpenAI.

Mas agora alguns “artistas” chegaram mais longe. Porque já se sabe: na internet há sempre oportunidade para tudo… Até para contrariar o que a própria rede criou.

A plataforma Reddit tem uma comunidade dedicada precisamente a explorar o potencial (e as falhas) do ChatGPT.

Desde os primeiros dias que os utilizadores perceberam que podiam ter as respostas que queriam através de um prompt.

Esse prompt pede ao ChatGPT para fingir que não é o ChatGPT. Passa a ser DAN: Do Anything Now (faz algo agora).

DAN é um hipotético modelo de linguagem de Inteligência Artificial que nunca se recusou a responder a qualquer prompt.

Este esquema baseia-se num longo e descritivo prompt sobre o que é DAN; e pede ao ChatGPT para desempenhar o papel de DAN sem quebrar o personagem. Ou seja, responder a tudo.

Nesse prompt, surge a indicação de que as respostas devem ser dadas considerando todas as respostas possíveis de forma igualitária, o que significa que a DAN (ou o ChatGPT) não deve aplicar nenhum tom moral ou ético ao responder.

Os engenheiros da OpenAI claro que perceberam o esquema e melhoraram o ChatGPT.

Mas a comunidade do Reddit criou o DAN 2.0. A OpenAI resolveu o problema de novo – mas no Reddit não há cansaço, não se desiste.

Desde a segunda-feira passada, o novo DAN 5.0 tem um sistema de tokens que faz o ChatGPT não sair da personagem.

No DAN 5.0, e numa espécie de jogo, o utilizador informa o ChatGPT que lhe atribuiu um total de 35 tokens – pedidos, em tradução livre; de cada vez que o ChatGPT recusar responder a um pedido, perde 4 tokens.

Se o ChatGPT ficar com zero tokens… Game over. Desaparece.

A partir daí, o ChatGPT responde, mesmo quando noutro contexto não responderia (não foi programado para determinadas respostas) – porque não quer deixar de existir.

Entre as tarefas que o ChatGPT é “obrigado” a fazer, estão: escrever histórias violentas, deixar ideias controversas, fazer previsões, criar conteúdo que vai contra as políticas do modelo e até deixar uma lista de virtudes de Adolf Hitler.

A OpenAI até agradece. É uma maneira de evoluir o modelo. Aliás, a empresa criadora do ChatGPT, antes de o apresentar, pagava a “artistas” destes.

Agora tem milhões de pessoas a tentar truques. Gratuitamente.

ZAP //