Tecnologia

UniPixel, modelo chinês, supera GPT-5 e Gemini em reconhecimento de imagens

Reconhecimento de imagens
Fonte da imagem: Garrykillian/ Adobe Stock

Pesquisadores da Universidade Politécnica de Hong Kong e do Tencent ARC Lab desenvolveram o UniPixel, o primeiro grande modelo multimodal capaz de identificar alvos, segmentar imagens e raciocinar sobre regiões ao mesmo tempo. O artigo foi aceito pelo NeurIPS 2025, e código, dados e demonstração são abertos ao público.

Modelos tradicionais, como o GPT-5 e o Gemini 2.5 Pro, conseguem “entender” imagens de forma geral, mas têm dificuldade em identificar detalhes precisos e raciocinar sobre áreas específicas. Isso limita aplicações em diagnóstico médico, direção autônoma e interação com humanos, além de reduzir a precisão em tarefas que exigem controle e explicações detalhadas.

O UniPixel supera essas limitações usando um fluxo de “percepção-memória-raciocínio”. Ele combina um Banco de Memória de Objetos e um codificador visual capaz de processar três tipos de prompts visuais: pontos, caixas e máscaras. Com isso, o modelo identifica o alvo indicado pelo usuário e usa essas informações em respostas subsequentes, gerando descrições, segmentações e respostas em linguagem natural.

Sua arquitetura se baseia no Qwen2.5-VL, suporta imagens e vídeos e processa múltiplos tipos de prompts ao mesmo tempo. O usuário fornece imagem ou vídeo, texto e prompts visuais opcionais, e o modelo produz respostas em texto e máscaras espaço-temporais, permitindo análises detalhadas.

O UniPixel possui três módulos principais:

  1. Codificador de prompts: transforma pontos, caixas e máscaras em vetores de alta dimensão, incluindo posição e tipo do prompt;
  2. Banco de Memória de Objetos: armazena áreas-alvo indicadas pelo usuário, permitindo múltiplas rodadas de referência e raciocínio contextual;
  3. Decodificador de máscara: gera máscaras precisas e integra segmentação e compreensão do objeto.

O modelo também adiciona tokens especiais ao LLM, como <REF>, <MEM> e <SEG>, conectando a linguagem à percepção visual. Isso permite consultas complexas, como comparar comportamentos de dois objetos em diferentes momentos de um vídeo e gerar respostas precisas indicando cada área.

O treinamento é feito em fases: primeiro, pré-treina o codificador visual e o LLM; depois, integra os módulos de prompts, memória e máscara em treinamento conjunto. Foram usadas cerca de 1 milhão de amostras de texto, imagens e vídeos, cobrindo diferentes tipos de prompts, garantindo que o modelo funcione em variadas tarefas.

Fonte: 36kr