O mais novo modelo da OpenAI, Sora, pode gerar vídeos – e eles parecem perfeitos
A OpenAI, seguindo os passos de startups como Runway e gigantes da tecnologia como Google e Meta , está entrando na geração de vídeos. A OpenAI revelou hoje o Sora , um modelo generativo de AI que cria vídeo a partir de texto. Dada uma descrição breve – ou detalhada – ou uma imagem estática, Sora pode gerar cenas semelhantes a filmes em 1080p com vários personagens, diferentes tipos de movimento e detalhes de fundo, afirma a OpenAI. Sora também pode “estender” videoclipes existentes – fazendo o possível para preencher os detalhes que faltam segundo o site melhor-destino.
“Sora tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens atraentes que expressam emoções vibrantes”, escreve OpenAI em uma postagem no blog. “ O modelo entende não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico.”
Agora, há muita coisa bombástica na página de demonstração do OpenAI para Sora – a declaração acima é um exemplo. Mas as amostras escolhidas a dedo do modelo parecem bastante impressionantes, pelo menos em comparação com outras tecnologias de texto para vídeo que vimos.
Para começar, Sora pode gerar vídeos em vários estilos (por exemplo, fotorrealista, animado, preto e branco) com até um minuto de duração – muito mais longo do que a maioria dos modelos de texto para vídeo. E esses vídeos mantêm uma coerência razoável no sentido de que nem sempre sucumbem ao que gosto de chamar de “estranheza da AI”, como objetos se movendo em direções fisicamente impossíveis.
Confira este tour por uma galeria de arte, tudo gerado por Sora (ignore a granulação — compressão da minha ferramenta de conversão de vídeo-GIF):
Ou esta animação de uma flor desabrochando:
Direi que alguns dos vídeos de Sora com um tema humanóide – um robô parado contra uma paisagem urbana, por exemplo, ou uma pessoa andando por um caminho nevado – têm uma qualidade de videogame, talvez porque não haja muita coisa acontecendo. no fundo. Além disso, a estranheza da AI consegue se infiltrar em muitos clipes, como carros dirigindo em uma direção e, de repente, dando ré ou braços derretendo em uma capa de edredom.
OpenAI – apesar de todos os seus superlativos – reconhece que o modelo não é perfeito. Ele escreve:
“[Sora] pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida. O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.”
O OpenAI posiciona Sora como uma prévia da pesquisa, revelando pouco sobre quais dados foram usados para treinar o modelo (menos de aproximadamente 10.000 horas de vídeo de “alta qualidade”) e evitando disponibilizar Sora ao público em geral. A sua justificativa é o potencial para abuso; A OpenAI aponta corretamente que maus atores podem usar indevidamente um modelo como Sora de inúmeras maneiras.
A OpenAI diz que está trabalhando com especialistas para investigar o modelo em busca de explorações e construir ferramentas para detectar se um vídeo foi gerado por Sora. A empresa também afirma que, caso opte por transformar o modelo em um produto voltado ao público, garantirá que os metadados de proveniência sejam incluídos nos resultados gerados.
“Envolveremos legisladores, educadores e artistas de todo o mundo para compreender as suas preocupações e identificar casos de uso positivos para esta nova tecnologia”, escreve OpenAI. “Apesar das extensas pesquisas e testes, não podemos prever todas as maneiras benéficas pelas quais as pessoas usarão nossa tecnologia, nem todas as maneiras pelas quais as pessoas irão abusar dela. É por isso que acreditamos que aprender com o uso no mundo real é um componente crítico para criar e lançar sistemas de AI cada vez mais seguros ao longo do tempo.”