Pesquisadores da Universidade Politécnica de Hong Kong e do Tencent ARC Lab desenvolveram o UniPixel, o primeiro grande modelo multimodal capaz de identificar alvos, segmentar imagens e raciocinar sobre regiões ao mesmo tempo. O artigo foi aceito pelo NeurIPS 2025, e código, dados e demonstração são abertos ao público.
Modelos tradicionais, como o GPT-5 e o Gemini 2.5 Pro, conseguem “entender” imagens de forma geral, mas têm dificuldade em identificar detalhes precisos e raciocinar sobre áreas específicas. Isso limita aplicações em diagnóstico médico, direção autônoma e interação com humanos, além de reduzir a precisão em tarefas que exigem controle e explicações detalhadas.
O UniPixel supera essas limitações usando um fluxo de “percepção-memória-raciocínio”. Ele combina um Banco de Memória de Objetos e um codificador visual capaz de processar três tipos de prompts visuais: pontos, caixas e máscaras. Com isso, o modelo identifica o alvo indicado pelo usuário e usa essas informações em respostas subsequentes, gerando descrições, segmentações e respostas em linguagem natural.
Sua arquitetura se baseia no Qwen2.5-VL, suporta imagens e vídeos e processa múltiplos tipos de prompts ao mesmo tempo. O usuário fornece imagem ou vídeo, texto e prompts visuais opcionais, e o modelo produz respostas em texto e máscaras espaço-temporais, permitindo análises detalhadas.
O UniPixel possui três módulos principais:
- Codificador de prompts: transforma pontos, caixas e máscaras em vetores de alta dimensão, incluindo posição e tipo do prompt;
- Banco de Memória de Objetos: armazena áreas-alvo indicadas pelo usuário, permitindo múltiplas rodadas de referência e raciocínio contextual;
- Decodificador de máscara: gera máscaras precisas e integra segmentação e compreensão do objeto.
O modelo também adiciona tokens especiais ao LLM, como <REF>, <MEM> e <SEG>, conectando a linguagem à percepção visual. Isso permite consultas complexas, como comparar comportamentos de dois objetos em diferentes momentos de um vídeo e gerar respostas precisas indicando cada área.
O treinamento é feito em fases: primeiro, pré-treina o codificador visual e o LLM; depois, integra os módulos de prompts, memória e máscara em treinamento conjunto. Foram usadas cerca de 1 milhão de amostras de texto, imagens e vídeos, cobrindo diferentes tipos de prompts, garantindo que o modelo funcione em variadas tarefas.
Fonte: 36kr
Adicionar Comentário