Tecnologia

DeepSeek R1-0528 amplia capacidade em programação e design e prepara caminho para o R2

Deepseek R1-0528
Fonte da imagem: Huang Zongzhi/ Xinhua

A indústria de inteligência artificial acompanha os avanços da DeepSeek, que lançou, em 28 de maio, a versão R1-0528. A nova atualização elevou o desempenho do modelo em tarefas de programação, gerando até 728 linhas de código para desenvolver um aplicativo de animação 3D com efeitos de partículas. O resultado é comparável ao do Claude 4, da Anthropic.

O DeepSeek R1, lançado em janeiro de 2025 por uma equipe chinesa, já havia chamado atenção por atingir desempenho próximo ao modelo o1 da OpenAI com um orçamento de treinamento de US$6 milhões, valor muito inferior aos US$500 milhões investidos pela concorrente americana. Desde então, em vez de lançar o esperado R2, a empresa optou por evoluir o modelo por meio de atualizações incrementais.

Avanços técnicos e limitações

A versão R1-0528 incorporou mecanismos de auto verificação para melhorar a precisão em respostas matemáticas e factuais. No benchmark Extended NYT Connections, a pontuação subiu de 38,6 para 49,8, alta de quase 30%.

Esse resultado é atribuído ao algoritmo GRPO (Group Relative Policy Optimization), que substituiu o método PPO tradicional. O GRPO compara amostras em grupos, dispensa redes de valor independentes e reduz o uso de memória em 40%, além de aumentar a eficiência de treinamento em 2,3 vezes.

Apesar disso, a atualização não resolveu limitações em suporte multilíngue e compreensão multimodal. O modelo ainda precisa traduzir perguntas em alemão para chinês ou inglês antes de processar. Também apresenta desempenho inferior em chamadas de funções complexas e simulações de papéis, áreas em que modelos concorrentes mantêm vantagem.

Outra mudança significativa foi a adoção de cadeias de raciocínio mais longas. Em um teste com o problema “estimar π/7”, o modelo levou 148 segundos para apresentar uma resposta, detalhando métodos como a série de Taylor. Esse tipo de inferência gradual melhora a capacidade de autocorreção, útil em linguagens como Zig, mas aumenta o tempo de resposta, um ponto crítico em interações em tempo real.

Desempenho em produção de conteúdo

O DeepSeek R1-0528 também melhorou em tarefas de escrita. As respostas agora seguem um padrão estruturado, com análise do problema, dedução e validação. Em perguntas históricas, o modelo apresenta mais contexto e múltiplas perspectivas. Além disso, a mistura de idiomas foi praticamente eliminada após reforço com recompensas de formatação.

A evolução técnica veio com custos. Resolver uma questão complexa de matemática levou 83 segundos; responder a uma pergunta da competição AIME exigiu 213 segundos. Em testes com poucos exemplos (Few-Shot), o modelo foi até sete vezes mais lento que concorrentes que não usam inferência profunda.

Parte dessa lentidão está ligada à arquitetura MoE (Mixture of Experts), que ativa apenas 37 bilhões de parâmetros por inferência de um total de 671 bilhões. Essa escolha reduz custos, mas limita o cálculo paralelo.

O preço da API da DeepSeek segue competitivo: US$0,55 por milhão de tokens de entrada e US$2,19 por milhão de tokens de saída, 3,7% do valor cobrado pelo OpenAI o1. Para aplicações que exigem interatividade em tempo real, no entanto, a latência continua sendo um obstáculo.

Interações contínuas mudam paradigma de desenvolvimento

A estratégia da DeepSeek sinaliza uma mudança no desenvolvimento de modelos de IA. Em vez de grandes saltos, a empresa aposta em melhorias contínuas com foco em problemas específicos. A abordagem reduz riscos e permite resposta rápida ao feedback da comunidade, como o suporte ao framework three.js.

A licença open source MIT e o modelo destilado facilitam a integração por parte de empresas e permitem a execução até em GPUs convencionais. Após o lançamento da versão R1-0528, o volume de chamadas à API cresceu a ponto de causar interrupções temporárias no serviço.

Os ganhos acumulados das atualizações elevaram o desempenho do modelo. No Codeforces, o ELO do R1 passou de 1890 para 2029, superando 96% dos programadores humanos. Em design de front-end, a qualidade alcançada já dificulta a distinção para quem não é especialista.

Fonte: 36kr.com