VideoPoet: um grande modelo de linguagem para geração de vídeo zero-shot

Uma onda recente de modelos de geração de vídeo entrou em cena, em muitos casos apresentando uma qualidade pitoresca impressionante. Um dos gargalos atuais na geração de vídeo está na capacidade de produzir grandes movimentos coerentes. Em muitos casos, mesmo os modelos líderes atuais geram pequenos movimentos ou, ao produzirem movimentos maiores, exibem artefatos perceptíveis.

Para explorar a aplicação de modelos de linguagem na geração de vídeo, apresentamos o VideoPoet, um modelo de linguagem grande (LLM) que é capaz de uma ampla variedade de geração de vídeo. tarefas, incluindo texto para vídeo, imagem para vídeo, estilização de vídeo, pintura e pintura externa< /span>).

Em contraste com modelos alternativos neste espaço, nossa abordagem integra perfeitamente muitos recursos de geração de vídeo em um único LLM, em vez de depender de componentes treinados separadamente e especializados em cada tarefa. AudioPaLM devido às suas excepcionais capacidades de aprendizagem em várias modalidades, incluindo linguagem, código e áudio ( por exemplo, de facto).

Por outro lado, os LLMs são amplamente reconhecidos como o padrão Imagen Video e vídeo para áudio. Uma observação notável é que os principais modelos de geração de vídeo são quase exclusivamente baseados em difusão (para ver um exemplo, consulte

Visão geral

O diagrama abaixo ilustra os recursos do VideoPoet. De Acordo com o site de Research do Google e o Onetoday.news As imagens de entrada podem ser animadas para produzir movimento e o vídeo (opcionalmente cortado ou mascarado) pode ser editado para pintura interna ou externa. Para estilização, o modelo grava um vídeo representando a profundidade e o fluxo óptico, que representam o movimento, e pinta o conteúdo na parte superior para produzir o estilo guiado pelo texto.

Uma visão geral do VideoPoet, capaz de realizar multitarefas em uma variedade de entradas e saídas centradas em vídeo. O LLM pode opcionalmente usar texto como entrada para orientar a geração de tarefas de texto para vídeo, imagem para vídeo, vídeo para áudio, estilização e pintura externa. Recursos usados: Wikimedia Commons e DAVIS.

Modelos de linguagem como geradores de vídeo

Uma vantagem importante do uso de LLMs para treinamento é que é possível reutilizar muitas das melhorias de eficiência escalonáveis que foram introduzidas na infraestrutura de treinamento LLM existente. No entanto, os LLMs operam em tokens discretos, o que pode tornar a geração de vídeo um desafio. Felizmente, existem tokenizadores de vídeo e áudio, que servem para codificar vídeo e clipes de áudio como sequências de tokens discretos (ou seja, índices inteiros), e que também podem ser convertidos novamente na representação original.

VideoPoet treina um modelo de linguagem autorregressivo para aprender através de modalidades de vídeo, imagem, áudio e texto através do uso de vários tokenizadores (MAGVIT V2 para vídeo e imagem e SoundStream para áudio). Uma vez que o modelo gera tokens condicionados a algum contexto, estes podem ser convertidos novamente em uma representação visível com os decodificadores tokenizadores.

Uma visão detalhada do design da tarefa VideoPoet, mostrando as entradas e saídas de treinamento e inferência de várias tarefas. As modalidades são convertidas de e para tokens usando codificadores e decodificadores tokenizadores. Cada modalidade é cercada por tokens de limite e um token de tarefa indica o tipo de tarefa a ser executada.

Exemplos gerados por VideoPoet

Alguns exemplos gerados pelo nosso modelo são mostrados abaixo.

Vídeos gerados pelo VideoPoet a partir de vários prompts de texto. Para solicitações de texto específicas, consulte o site.

Para texto para vídeo, as saídas de vídeo têm duração variável e podem aplicar uma variedade de movimentos e estilos dependendo do conteúdo do texto. Para garantir práticas responsáveis, fazemos referência a obras de arte e estilos de domínio público, por exemplo, “Noite Estrelada” de Van Gogh.

Entrada de texto		“Um guaxinim dançando na Times Square”		“Um cavalo galopando na ‘Noite Estrelada’ de Van-Gogh”		“Dois pandas jogando cartas”		“Uma grande bolha de tinta de arco-íris explodindo, com uma maçã emergindo, 8k”
Saida de video

Para imagem para vídeo, o VideoPoet pode pegar a imagem de entrada e animá-la com um prompt.

Um exemplo de imagem para vídeo com instruções de texto para orientar o movimento. Cada vídeo é emparelhado com uma imagem à sua esquerda. Esquerda: “Um navio navegando em mar agitado, trovoadas e relâmpagos, óleo animado sobre tela”. Médio: “Voando através de uma nebulosa com muitas estrelas cintilantes”. Direito: “Um andarilho em um penhasco com uma bengala olhando para o nevoeiro marinho rodopiante abaixo em um dia de vento”. Referência: Wikimedia Commons, domínio público**.

Para estilização de vídeo, prevemos o fluxo óptico e as informações de profundidade antes de alimentar o VideoPoet com algum texto de entrada adicional.

Exemplos de estilização de vídeo sobre vídeos gerados de texto para vídeo do VideoPoet com instruções de texto, profundidade e fluxo óptico usados como condicionamento. O vídeo esquerdo em cada par é o vídeo de entrada, o vídeo direito é a saída estilizada. Esquerda: “Wombat usando óculos escuros e segurando uma bola de praia em uma praia ensolarada.” Médio: “Urso de pelúcia patinando no gelo em um lago cristalino e congelado.” Certo: “Um leão de metal rugindo à luz de uma forja.”

VideoPoet também é capaz de gerar áudio. Aqui, primeiro geramos clipes de 2 segundos a partir do modelo e depois tentamos prever o áudio sem qualquer orientação de texto. Isso permite a geração de vídeo e áudio a partir de um único modelo.

Um exemplo de vídeo para áudio, gerando áudio a partir de um exemplo de vídeo sem qualquer entrada de texto.

Por padrão, o modelo VideoPoet gera vídeos na orientação retrato para adaptar sua saída ao conteúdo curto. Para mostrar suas capacidades, produzimos um breve filme composto por vários clipes curtos gerados pelo VideoPoet. Para o roteiro, pedimos a Bard que escrevesse um conto sobre um guaxinim viajante com uma análise cena por cena e uma lista de instruções que o acompanham. Em seguida, geramos videoclipes para cada prompt e juntamos todos os clipes resultantes para produzir o vídeo final abaixo.

Quando desenvolvemos o VideoPoet, notamos algumas propriedades interessantes das capacidades do modelo, que destacamos a seguir.

Vídeo longo

Somos capazes de gerar vídeos mais longos simplesmente condicionando o último segundo do vídeo e prevendo o próximo segundo. Ao encadear isso repetidamente, mostramos que o modelo pode não apenas estender bem o vídeo, mas também preservar fielmente a aparência de todos os objetos, mesmo durante várias iterações.

Aqui estão dois exemplos de VideoPoet gerando vídeos longos a partir da entrada de texto:

Entrada de texto		“Um astronauta começa a dançar em Marte. Fogos de artifício coloridos explodem ao fundo.”		“Imagens de FPV de uma cidade élfica de pedra muito nítida na selva com um rio azul brilhante, cachoeira e grandes penhascos verticais íngremes.”
Saida de video

Também é possível editar interativamente videoclipes existentes gerados pelo VideoPoet. Se fornecermos uma entrada de vídeo, podemos alterar o movimento dos objetos para realizar diferentes ações. A manipulação do objeto pode ser centralizada no primeiro quadro ou nos quadros intermediários, o que permite um alto grau de controle de edição.

Por exemplo, podemos gerar aleatoriamente alguns clipes do vídeo de entrada e selecionar o próximo clipe desejado.

Um vídeo de entrada à esquerda é usado como condicionamento para gerar quatro opções, dado o prompt inicial: “Close up de um adorável robô steampunk enferrujado e quebrado, coberto de musgo úmido e vegetação em flor, cercado por grama alta”. Para os três primeiros resultados mostramos o que aconteceria com movimentos não solicitados. Para o último vídeo da lista abaixo, adicionamos ao prompt “ligando com fumaça ao fundo” para orientar a ação.

Controle de imagem para vídeo

Da mesma forma, podemos aplicar movimento a uma imagem de entrada para editar seu conteúdo no estado desejado, condicionado a um prompt de texto.

Animando uma pintura com diferentes prompts. Esquerda: “Uma mulher se virando para olhar para a câmera.” Certo: “Uma mulher bocejando.” **

Movimento da câmera

Também podemos controlar com precisão os movimentos da câmera anexando o tipo de movimento de câmera desejado ao prompt de texto. Como exemplo, geramos uma imagem pelo nosso modelo com o prompt, “Arte conceitual de um jogo de aventura de um nascer do sol sobre uma montanha nevada perto de um rio cristalino”. Os exemplos abaixo acrescentam o sufixo de texto fornecido para aplicar o movimento desejado.

Solicita da esquerda para a direita: “Zoom out”, “Dolly zoom”, “Pan left”, “Arc shot”, “Crane shot”, “FPV drone shot”.

Resultados da avaliação

Avaliamos o VideoPoet na geração de texto para vídeo com uma variedade de benchmarks para comparar os resultados com outras abordagens. Para garantir uma avaliação neutra, executamos todos os modelos em uma ampla variedade de prompts, sem escolher exemplos, e pedimos às pessoas que avaliassem suas preferências. A figura abaixo destaca a porcentagem de vezes que o VideoPoet foi escolhido como opção preferida em verde para as questões a seguir.

Fidelidade de texto

Classificações de preferência do usuário para fidelidade de texto, ou seja, qual porcentagem de vídeos é preferida em termos de seguir com precisão uma solicitação.

Interesse do movimento

Classificações de preferência do usuário quanto ao interesse do movimento, ou seja, qual porcentagem de vídeos é preferida em termos de produção de movimento interessante.

Com base no acima exposto, em média, as pessoas selecionaram 24–35% dos exemplos do VideoPoet como seguindo instruções melhores do que um modelo concorrente, versus 8–11% para modelos concorrentes. Os avaliadores também preferiram 41–54% dos exemplos do VideoPoet para movimentos mais interessantes do que 11–21% para outros modelos.

Conclusão

Através do VideoPoet, demonstramos a qualidade de geração de vídeo altamente competitiva dos LLMs em uma ampla variedade de tarefas, especialmente na produção de movimentos interessantes e de alta qualidade em vídeos. Nossos resultados sugerem o potencial promissor dos LLMs na área de geração de vídeo. Para direções futuras, nossa estrutura deve ser capaz de suportar a geração “qualquer para qualquer”, por exemplo, a extensão para texto para áudio, áudio para vídeo e legendas de vídeo deve ser possível, entre muitos outros.

Para ver mais exemplos com qualidade original, consulte a demonstração do site.

VideoPoet: um grande modelo de linguagem para geração de vídeo zero-shot

VideoPoet: um grande modelo de linguagem para geração de vídeo zero-shot

Visão geral

Modelos de linguagem como geradores de vídeo