G1 - Tecnologia

OpenAI, dona do ChatGPT, lança modelo que cria vídeos realistas com inteligência artificial a partir de textos

.

por G1

Em 15/02/2024 às 18:03:42

Sora consegue criar vídeos de até 60 segundos a partir de breve descrições, segundo a empresa. Vídeo criado com a inteligência artificial Sora mostra mamutes caminhando no gelo

Divulgação/OpenAI

A OpenAI, criadora do robô ChatGPT, revelou nesta quinta-feira (15) um modelo de inteligência artificial que cria vídeos realistas a partir de texto curtos. Batizado de Sora, ele foi liberado para análises de especialistas e ainda não está disponível ao público.

"O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes", explica a OpenAI.

"O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico".

Vídeo criado com a inteligência artificial Sora mostra animação de personagem brincando com vela

Divulgação/OpenAI

Demonstrações de criações do Sora incluem tanto animações quanto vídeos com estilo realista (veja exemplos). Um deles mostra o que seria um casal andando em Tóquio – o vídeo não foi gravado por humanos, e sim, gerado por inteligência artificial, segundo a OpenAI.

A empresa disse que disse que vai adotar várias medidas de segurança antes de disponibilizar o Sora em seus produtos. Isso inclui o trabalho com especialistas em áreas como desinformação, conteúdo de ódio e preconceito.

Além disso, um grupo de artistas visuais, como designers e cineastas, recebeu acesso à ferramenta para dar suas contribuições do que pode ser feito para torná-la útil para suas criações.

"O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]", afirma a OpenAI.

Como funciona o Sora

O Sora usa uma técnica chamada "difusão", que cria imagens a partir de pontos aleatórios. No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.

A técnica é parecida com a de robôs que conseguem criar fotos a partir de descrições dos usuários. Um deles é o DALL-E, que também foi criado pela OpenAI e serviu de base para o desenvolvimento do Sora.

"[O Sora] usa a técnica de recaptação do DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado", diz a OpenAI.

Nem tudo é perfeito

A empresa afirma que, além de criar vídeos do zero, seu novo modelo de inteligência artificial é capaz de criar continuações de vídeos existentes e gerar vídeos a partir de imagens estáticas. E, admite que ele também tem "fraquezas".

Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. "Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida", explica.

"O modelo também pode confundir detalhes espaciais de um 'prompt', por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera".

Veja exemplos de vídeos criados pelo Sora

Como funcionam os robôs que criam fotos

Como funcionam os robôs que criam imagens novas em segundos

G1

Assine o Portal!

Receba as principais notícias em primeira mão assim que elas forem postadas!

Assinar Grátis!

Assine o Portal!

Receba as principais notícias em primeira mão assim que elas forem postadas!

Assinar Grátis!