Empreendedorismo

Nova IA da Alibaba gera vídeos de até 15 segundos com personagens e múltiplas cenas

Alibaba vídeos IA
Imagem: Wanxiang 2.6 via tmtpost

A Alibaba lançou, em 16 de dezembro, a nova geração da série de modelos de inteligência artificial Wanxiang 2.6, voltada à produção audiovisual profissional e à criação de imagens. O modelo passa a oferecer, pela primeira vez na China, suporte à interpretação de personagens em vídeos gerados por IA. A atualização também inclui sincronização entre áudio e imagem, geração de múltiplas cenas e condução por voz. O Wanxiang 2.6 já está disponível no Alibaba Cloud Bailian e no site oficial da plataforma.

O lançamento ocorre após a Alibaba apresentar, em setembro, o Wanxiang 2.5, primeiro modelo chinês de geração de vídeo com sincronização audiovisual. Segundo a empresa, essa versão elevou a eficiência da criação de vídeos. No ranking do LMArena, que avalia grandes modelos de IA, o Wanxiang liderou a classificação nacional em geração de vídeo a partir de imagens.

A versão 2.6 amplia a qualidade de imagem, os efeitos sonoros e a precisão no cumprimento de instruções. Cada vídeo pode ter até 15 segundos de duração, o maior limite registrado no mercado chinês até o momento. O modelo incorpora recursos de interpretação de personagens e controle de storyboard, o que permite gerar vídeos com uma ou várias pessoas, além de interações entre pessoas e objetos. O sistema também realiza automaticamente a alternância entre cenas, atendendo a demandas de produções audiovisuais profissionais.

De acordo com a Alibaba, o Tongyi Wanxiang utiliza uma arquitetura multimodal que integra vídeos de referência no processo de aprendizado. O modelo analisa emoções, posturas e características visuais dos personagens ao longo do tempo e em diferentes ângulos. Também extrai dados acústicos, como timbre e velocidade da fala. Essas informações funcionam como parâmetros de controle na geração dos vídeos, garantindo consistência entre imagem e som. Atualmente, o sistema já suporta performances individuais e em grupo.

No controle de storyboard, o modelo aplica compreensão semântica avançada para dividir os comandos do usuário em múltiplas cenas, com narrativa estruturada. Durante as transições, o sistema mantém a consistência do personagem principal, do cenário e da atmosfera, o que assegura uniformidade de ritmo e estilo ao longo do vídeo.

O recurso de interpretação de personagens amplia o uso do modelo por usuários não especializados. Ao enviar um vídeo pessoal e definir um prompt, como ficção científica ou suspense, o sistema cria automaticamente o storyboard, a atuação do personagem e a dublagem, gerando um curta com narrativa completa e movimentos de câmera inspirados no cinema.

Em aplicações profissionais, como publicidade e produção de minisséries, o Wanxiang 2.6 permite gerar vídeos completos a partir de prompts contínuos. Segundo a empresa, o modelo mantém a consistência de personagens, produtos e cenários mesmo com múltiplas mudanças de cena, o que facilita a criação de campanhas publicitárias e conteúdos seriados.

O acesso ao Wanxiang 2.6 já está disponível para usuários no site oficial da plataforma. Empresas podem utilizar a API por meio do Alibaba Cloud Bailian. A Alibaba também informou que o aplicativo Qwen deverá integrar o modelo em breve.

Atualmente, a família Wanxiang reúne mais de dez capacidades de criação visual, incluindo geração e edição de imagens, geração de vídeos a partir de texto, imagens ou voz, criação de movimentos, interpretação de personagens e edição geral de vídeos. Esses recursos já são utilizados em áreas como quadrinhos animados com IA, design publicitário e produção de vídeos curtos.

Fonte: tmtpost.com