Tecnologia

ByteDance, Alibaba e Baidu iniciam guerra de preços em sistemas de AI

Guerra Preços AI
Fonte da imagem: Wang Shen/ Xinhua

A guerra de preços de grandes modelos de Inteligência Artificial (AI, na sigla em inglês) está se intensificando na China. Na manhã de 21 de maio, a Alibaba Cloud anunciou que o modelo principal Qwen-Long do GPT-4 foi reduzido em 97%, podendo ser comprado por 2 milhões de tokens por RMB.

Essa ação coloca um desafio à ByteDance. Anteriormente, em 15 de maio, a ByteDance lançou o grande modelo Dou Bao, anunciando que seu modelo principal seria precificado em RMB 0,0008 por mil tokens, 99,3% mais barato que o preço médio da indústria. Após a redução de preços da Alibaba Cloud, o preço de entrada de sua API caiu de RMB 0,02 por mil tokens para RMB 0,0005 por mil tokens. No entanto, apesar da redução de 97% nos preços, a vantagem de preço da Alibaba Cloud durou apenas algumas horas. Na tarde de 21 de maio, a Baidu AI Cloud anunciou que os dois principais modelos do grande modelo ERNIE seriam totalmente gratuitos, incluindo ERNIE Speed e ERNIE Lite. Em seguida, a Alibaba Cloud afirmou na rede social Weibo que “a Qwen-Long já disponibilizou 12 modelos de código aberto para download gratuito”, aparentemente em resposta à estratégia de gratuidade dos dois modelos da Baidu.

Por trás desta guerra de preços acalorada e feroz, há muitas razões pelas quais os fabricantes de grandes modelos não têm escolha a não ser seguir a tendência de redução de preços.

A onda de redução de preços de grandes modelos começou a aparecer em maio. Em 6 de maio, a DeepSeek, lançou a segunda geração do modelo especialista MoE DeepSeek-V2, com preços de API de RMB 1 por milhão de tokens de entrada e RMB 2 por milhão de tokens de saída (32K de contexto), cerca de um centésimo do preço do GPT-4-Turbo. Em 13 de maio, a plataforma de modelos grandes da Zhipu lançou um novo sistema de preços, com o modelo de entrada GLM-3 Turbo com um preço de chamada de 80% a menos, a RMB 1 por milhão de tokens. Em seguida, a OpenAI lançou o GPT-4o, com metade do preço do GPT-4 Turbo, cobrando US$ 5 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída. A ByteDance também se juntou à onda de redução de preços.

Com a queda de preços dos modelos comerciais e abertos da Qwen-Long da Alibaba Cloud e a gratuidade dos dois principais modelos do grande modelo ERNIE, os fabricantes de grandes modelos parecem estar “espremendo” seu espaço de lucro. Por que os grandes modelos podem ter uma redução de preço tão significativa? Em resposta, a Alibaba Cloud afirmou que isso se deve principalmente ao dividendo tecnológico e aos efeitos de escala da nuvem pública, que trazem vantagens de custo e desempenho. Isso é alcançado através da otimização contínua dos modelos e da infraestrutura de IA em dois níveis.

Em 21 de maio, em resposta ao anúncio da Alibaba Cloud sobre a redução de preços do modelo principal GPT-4 da Qwen-Long, o responsável pelo motor de busca da ByteDance, o TRAFFICROUTE, disse ao portal de notícias chinês, Yicai, que eles recebem calorosamente a redução de preços dos grandes modelos da Qwen-Long, colaborando para ajudar as empresas a explorar a transformação da IA a um custo mais baixo e acelerar a implementação de cenários de aplicação de grandes modelos.

Por trás da redução de preços dos grandes modelos, o custo de computação também está diminuindo na indústria. A Alibaba Cloud afirmou que, através da construção de um sistema de programação de computação de IA elástico e da combinação com o mecanismo de aceleração distribuída, a Alibaba Cloud otimizou clusters de inferência em grande escala, reduzindo significativamente os custos de inferência do modelo e acelerando a velocidade de inferência.

A Tencent Cloud também mencionou recentemente a redução dos custos de computação de grandes modelos. O vice-presidente do Grupo Tencent, Jiang Jie, revelou que, para lidar com a falta de poder de computação e memória de baixa qualidade em cartões de baixa qualidade, a Tencent utiliza a plataforma de treinamento e inferência Angel desenvolvida internamente, escalando clusters de cartões heterogêneos, reduzindo os custos de inferência de grandes modelos em trilhões em 70% em comparação com o código aberto.

Fonte: yicai.com
Imagem principal: Wang Shen/ Xinhua