Tecnologia

Alibaba, Baidu e Tencent competem por capacidade computacional do Llama 3 da Meta

Llama 3 Meta

Após o lançamento dos dois grandes modelos de código aberto da série Llama 3 pela Meta, empresas chinesas de nuvem como Baidu, Alibaba e Tencent rapidamente competiram para atender à demanda de implantação de capacidade computacional do Llama 3.

Alibaba Cloud anunciou suporte abrangente para os modelos da série Llama 3, incluindo serviços gratuitos de treinamento, implantação e inferência por tempo limitado. Tencent Cloud também anunciou que sua plataforma Tencent Cloud TI é uma das primeiras a oferecer suporte para a série completa de modelos Llama 3.

Além disso, em 19 de abril, a Baidu AI Cloud Qianfan Model anunciou que é a primeira empresa de nuvem na China a oferecer soluções de treinamento e inferência para a série completa do Llama 3. A Amazon Web Services também anunciou que esses dois modelos estão disponíveis no Amazon SageMaker JumpStart.

Vários especialistas do setor de tecnologia têm elogiado a série Llama 3, sugerindo que a possível versão futura com mais de 400 bilhões de parâmetros poderia mudar o ecossistema de grandes modelos. Alguns profissionais também compararam o Llama 3 de código aberto ao Android, sugerindo que poderia desafiar os sistemas operacionais de smartphones fechados.

Com a tendência contínua em direção ao código aberto, as empresas de nuvem não estão mais apenas dependendo de parcerias com fabricantes de modelos proprietários fechados, mas estão competindo para atender à demanda por capacidade computacional de grandes modelos de código aberto.

Desempenho do Llama 3

Os dados de benchmark do Llama 3 na versão de código aberto são impressionantes. De acordo com a Meta, o Llama 3 8B com ajuste de instruções supera o Gemma 7B-1t e o Mistral 7B Instruct em cinco benchmarks, enquanto o Llama 3 70B supera o Gemini Pro 1.5 e o Claude 3 Sonnet em três benchmarks.

Após o lançamento desses dois modelos de código aberto, recentemente, profissionais da indústria também expressaram suas opiniões sobre o modelo. O fundador e presidente da 360, Zhou Hongyi, acredita que esses dois modelos de código aberto têm um desempenho muito forte e devem superar em muito o GPT-3.5. A chegada do Llama mais uma vez valida a confiança da empresa no código aberto.

Na China, há preocupações com a capacidade em chinês e as fraquezas em textos longos do Llama 3. Em um grupo de discussão de profissionais de grandes modelos, muitos desenvolvedores criticaram o desempenho em chinês do Llama 3, com alguns testes práticos revelando que sua capacidade em chinês não é tão boa quanto a do GPT-3.5. No entanto, alguns analistas da indústria apontam que enfraquecer a capacidade em chinês do Llama 3 não é um grande problema, pois um bom modelo em chinês não necessariamente precisa de uma grande quantidade de dados em chinês.

O Llama 3 tem uma janela de contexto de apenas 8k, o que está abaixo da média da indústria. Zhou Hongyi afirmou que o modelo de 7B (7 bilhões) de parâmetros da 360 pode lidar com textos longos de até 360k e já disponibilizou métodos de treinamento para textos longos, que podem ser aplicados ao treinamento do Llama 3 8B para compensar essa deficiência.

Após a discussão sobre a rota de código aberto e fechado provocada pelo lançamento do Llama 3 de código aberto, o CEO da Meta, Mark Zuckerberg, revelou recentemente em uma entrevista suas ideias e determinação em relação ao código aberto. Ele afirmou que, mesmo que o custo de desenvolvimento de um modelo atinja US$ 10 bilhões, se for útil para a Meta, será disponibilizado como código aberto. Zuckerberg mencionou os benefícios do código aberto, citando o exemplo do projeto de computação aberta da Meta, que economizou bilhões de dólares à empresa.

A abertura do Llama 3 desencadeou uma grande repercussão, e a Alibaba Cloud, Baidu Cloud e Tencent Cloud também perceberam a oportunidade e estão competindo para atender à demanda de capacidade computacional.

Fonte: yicai.com
Imagem principal: Li Muzi/ Xinhua