É oficial: vamos deixar de poder confiar em vídeos. A criadora do ChatGPT revelou esta quinta-feira a sua mais recente ferramenta de IA generativa, que cria vídeos instantaneamente em resposta a comandos por escrito.
O Sora, novo gerador de texto para vídeo da OpenAI, possui “uma compreensão profunda da linguagem” e pode gerar “personagens cativantes que expressam emoções vibrantes”, disse a OpenAI — com exemplos assustadores para o comprovar.
“Uma sessão instrutiva de culinária para gnocchi caseiro, apresentada por uma avó influencer de redes sociais, ambientada numa cozinha rústica do interior da Toscana com iluminação cinematográfica”, foi uma das sugestões que surgiu no X.
O CEO da tecnológica Sam Altman respondeu pouco tempo depois com um vídeo ultrarrealista, que retratava o que o pedido descrevia.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
“Sora é capaz de gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do sujeito e do fundo”, disse a startup apoiada pela Microsoft.
A surpreendente qualidade e realismo dos vídeos exibidos pela OpenAI surpreendeu os observadores e ao mesmo tempo levantou receios sobre as implicações éticas e sociais da ferramenta.
No seu website, a empresa revelou alguns exemplos alarmantes de vídeos gerados com a nova ferramenta, que é capaz de gerar vídeos com até um minuto de duração.
Inserindo — em inglês — a simples instrução em texto “um belo vídeo caseiro a mostrar as pessoas de Lagos, Nigéria, no ano de 2056. Filmado com uma câmara de telemóvel“, a ferramenta foi capaz de gerar o seguinte vídeo:
E seguem-se inúmeros exemplos.
Pedindo “imagens históricas da Califórnia durante a corrida ao ouro“, o Sora fez este vídeo:
Com a instrução “uma mulher elegante caminha por uma rua de Tóquio cheia de néons quentes e luminosos e sinalização animada da cidade. Veste um casaco de couro preto, um longo vestido vermelho e botas pretas, e carrega uma bolsa preta. Usa óculos de sol e batom vermelho. Caminha de forma confiante e casual. A rua está húmida e reflexiva, criando um efeito espelho das luzes coloridas. Muitos pedestres passeiam” a ferramenta voltou a surpreender:
“O modelo compreende não só o que o utilizador pediu no prompt, mas também como essas coisas existem no mundo físico.”
“Todos os vídeos nesta página foram gerados diretamente pelo Sora sem modificação” garante a OpenAI.
Alguns utilizadores do X já se mostraram muito surpreendidos — e assustados — com os resultados de “de outro mundo” da aplicação.
SORA is just out of this world.
OpenAI’s new text-to-video model just dropped and it’s insane.
More examples below ⬇️ pic.twitter.com/qbMy5Rz5Mc
— Linus (●ᴗ●) (@LinusEkenstam) February 15, 2024
“Já passaram duas horas e o meu cérebro ainda não consegue processar estes vídeos gerados pela Sora da OpenAI”, disse um utilizador.
A ferramenta ainda não está disponível publicamente e a OpenAI revelou informações limitadas sobre como foi construída — não revelou, por exemplo, quais imagens e fontes de vídeo foram utilizadas para ensinar a ferramenta a produzir os vídeos.
A empresa, que foi processada por autores e pelo The New York Times pelo uso de obras escritas protegidas por direitos de autor para treinar o ChatGPT, sublinhou que está a interagir com artistas, legisladores e outros, antes de lançar a nova ferramenta ao público.
“Também estamos a construir ferramentas para ajudar a detetar conteúdo fraudulento, como um instrumento de deteção que pode dizer quando um vídeo foi gerado por Sora”, acrescentou.
A ferramenta da empresa com sede em São Francisco não será a primeira deste género. Google, Meta e a ‘startup’ Runway ML estão entre as outras empresas que demonstraram tecnologia semelhante, segundo a agência Associated Press (AP).