Uma nova aplicação traduz os nossos pensamentos em imagens

Uma nova aplicação de Inteligência Artificial (IA) é capaz de transformar qualquer coisa que nos venha à cabeça em imagens, apenas descrevendo a ideia com um texto.

A Open AI revelou uma nova versão do seu DALL-E, uma Inteligência Artificial que promete transformar os nossos pensamentos em imagens, simplesmente digitando-os num campo de texto.

Esta tecnologia é uma prova das capacidades espantosas alcançadas pela IA, bem como um lembrete de que as imagens e vídeos já não são provas definitivas da verdade, de acordo com o El Confidencial.

A Open AI é uma organização sem fins lucrativos, que visa desenvolver a Inteligência Artificial em benefício da humanidade.

A empresa foi fundada em São Francisco, no final de 2015, por Elon Musk e Sam Altman, entre outros, e é pioneira no desenvolvimento de modelos linguísticos como o GPT, que na sua terceira versão já é capaz de criar textos escritos com uma qualidade muito semelhante aos produzidos pelos seres humanos.

Estes modelos linguísticos são chamados auto-regressivos, ou seja, aprendem com dados do passado (por exemplo, os textos publicados por um autor) para prever dados futuros (como seria um novo texto, escrito ao estilo da mesma pessoa).

Mas este tipo de Inteligência Artificial não é apenas utilizado para gerar textos. A Open AI também a utilizou para desenvolver DALL-E, uma ferramenta que consegue traduzir palavras (ou pensamentos) em imagens.

DALL- E é uma mistura do nome do pintor surrealista catalão Salvador Dalí e do personagem principal do filme WALL-E, da Disney.

A primeira versão desta IA foi lançada em janeiro de 2021 e, apesar de estar limitada a combinações predefinidas de palavras, fez manchetes internacionais pelos seus resultados espantosos.

Agora, a Open AI acaba de revelar DALL-E 2, uma versão que os seus criadores dizem ser muito mais avançada, e capaz de converter pensamentos em imagens realistas, simplesmente digitando a sua descrição em texto.

Como funciona a DALL-E 2?

A empresa ainda não partilhou esta inovadora IA com o público, e por agora é necessária a inscrição numa lista de espera, para a poder utilizar.

Mas de acordo com a apresentação da empresa, pode pedir à DALL-E 2 para gerar imagens de astronautas a cavalo, ursos de peluche a fazer experiências químicas num laboratório, ou uma tigela de sopa que é um portal para outra dimensão.

Pode também escolher o estilo que deseja, desde uma imagem completamente foto-realista, até um desenho no estilo de pintores como Vermeer, Warhol ou Basquiat, com um resultado mais do que impressionante.

“Uma maneira de pensar nesta rede neural é a beleza transcendental como um serviço”, refere Ilya Sutskever, co-fundador e investigador do OpenAI. “De vez em quando, gera algo que me espanta”.

A programação de DALL-E 2 já não se baseia no GPT-3 como na sua versão anterior, o que significa que não é necessária a uma combinação de conceitos pré-definidos.

Este cérebro artificial funciona agora em duas fases: a primeira utiliza outro modelo de linguagem aberta de IA, o CLIP, que traduz descrições de texto em imagens.

Depois, corre uma espécie de rede neural (modelo de difusão) para que a imagem gerada esteja suficientemente próxima do que o CLIP quer.

Esse modelo de difusão foi treinado com imagens distorcidas, onde os seus pixels foram misturados aleatoriamente.

Consegue então pegar num conjunto desses pixels e, através do CLIP, convertê-los numa imagem completamente nova, de alta resolução, que corresponda ao texto da descrição.

Adeus, Photoshop

Outra das grandes apostas desta nova versão é a sua capacidade de modificar as imagens existentes, também por meio de indicações de texto.

Pode pedir à DALL-E 2 para colocar um brasão na Mona Lisa, para fazer um retrato de si como se fosse a “A Menina com o Brinco de Pérola” de Vermeer, ou para tirar uma fotografia sua a beijar o seu parceiro, como se fosse um quadro de Gustav Klimt.

Mas também pode remover, modificar e substituir elementos de uma imagem por outros, como os retocadores de fotos fazem com ferramentas como o Photoshop.

Por exemplo, pode remover um cão sentado numa cadeira e substituí-lo por um gato, e manter o realismo das sombras, texturas e reflexos.

Embora o DALL-E 2 tenha as suas limitações — segundo a MIT Technology Review, tem problemas em lidar com a combinação de dois ou mais objetos, com dois ou mais atributos, como “um cubo vermelho num cubo azul” — esta tecnologia mostra resultados surpreendentes, que melhoram significativamente a versão lançada há pouco mais de um ano.

Se esta tendência continuar, o que no caso da Inteligência Artificial acontece de forma exponencial, não tardará muito até vermos um DALL-E 3 ou DALL-E 4 que seja capaz de criar imagens através de palavras, sem cometer erros. Isto colocaria muitos fotógrafos, editores e bancos de imagens sem trabalho.

Além disso, a passagem desta tecnologia para o vídeo não seria demasiado complicada, quando o sistema estivesse bem trabalhado.

No final de contas, um vídeo é um conjunto de imagens, que têm uma ligeira variação de um momento para o outro, mas que o nosso cérebro interpreta como contínuo.

Se a DALL-E conseguir criar uma imagem a partir do zero, poderá criar uma série de imagens que estão relacionadas entre si sem grandes problemas.

Uma ferramenta como a DALL-E mostra o progresso da Inteligência Artificial nos últimos anos, mas também nos dá um vislumbre do precipício que se aproxima.

Os investigadores têm vindo a alertar para este facto há algum tempo, e, como vimos, a IA é agora capaz de produzir imagens que são indistinguíveis do real.

Se acrescentarmos a isto o facto de que qualquer pessoa pode gerar uma imagem simplesmente preenchendo um campo de texto com uma descrição do que está na sua cabeça, estamos perante um cenário em que já não poderemos confiar nas imagens que vemos. Nem fotografias nem vídeos.

A Open AI tem como objetivo principal desenvolver uma Inteligência Artificial que funcione para o bem da humanidade. E assim impedir-nos de acabar num cenário distópico como o da Matrix ou Terminator. É por isso que DALL-E 2, de acordo com os seus criadores, foi concebida com uma série de limitações.

“Limitamos a capacidade do DALL-E 2 de gerar imagens violentas, odiosas ou para apenas adultos”, escrevem os investigadores da Open AI.

“Ao remover o conteúdo mais explícito dos dados de formação, minimizamos a exposição do DALL-E 2 a estes conceitos. Também temos utilizado técnicas avançadas para evitar a criação foto-realista de rostos de pessoas reais, incluindo os de figuras públicas”, acrescentam.

A Inteligência Artificial, segundo a empresa, tem uma série de filtros que identificam textos e imagens que podem violar as suas políticas.

Além disso, afirmam possuir sistemas automatizados e de controlo humano para evitar o uso indevido, bem como um painel de peritos externos para os ajudar a melhorar a segurança de todo o sistema.

O problema é que a Open AI normalmente partilha o código das suas criações. Se esta Inteligência Artificial acabar por ser publicada como fonte aberta, como costuma ser o caso, as limitações estabelecidas pela empresa serão tão eficazes como colocar portões no meio de um descampado.

Ninguém será capaz de impedir que esta tecnologia seja utilizada para os fins que a Open AI quer evitar, como as imagens violentas, sexuais ou degradantes.

Alice Carqueja, ZAP //