Alibaba, Baidu e Tencent competem por capacidade computacional do Llama 3 da Meta

Após o lançamento dos dois grandes modelos de código aberto da série Llama 3 pela Meta, empresas chinesas de nuvem como Baidu, Alibaba e Tencent rapidamente competiram para atender à demanda de implantação de capacidade computacional do Llama 3.

Alibaba Cloud anunciou suporte abrangente para os modelos da série Llama 3, incluindo serviços gratuitos de treinamento, implantação e inferência por tempo limitado. Tencent Cloud também anunciou que sua plataforma Tencent Cloud TI é uma das primeiras a oferecer suporte para a série completa de modelos Llama 3.

Além disso, em 19 de abril, a Baidu AI Cloud Qianfan Model anunciou que é a primeira empresa de nuvem na China a oferecer soluções de treinamento e inferência para a série completa do Llama 3. A Amazon Web Services também anunciou que esses dois modelos estão disponíveis no Amazon SageMaker JumpStart.

Vários especialistas do setor de tecnologia têm elogiado a série Llama 3, sugerindo que a possível versão futura com mais de 400 bilhões de parâmetros poderia mudar o ecossistema de grandes modelos. Alguns profissionais também compararam o Llama 3 de código aberto ao Android, sugerindo que poderia desafiar os sistemas operacionais de smartphones fechados.

Com a tendência contínua em direção ao código aberto, as empresas de nuvem não estão mais apenas dependendo de parcerias com fabricantes de modelos proprietários fechados, mas estão competindo para atender à demanda por capacidade computacional de grandes modelos de código aberto.

Desempenho do Llama 3

Os dados de benchmark do Llama 3 na versão de código aberto são impressionantes. De acordo com a Meta, o Llama 3 8B com ajuste de instruções supera o Gemma 7B-1t e o Mistral 7B Instruct em cinco benchmarks, enquanto o Llama 3 70B supera o Gemini Pro 1.5 e o Claude 3 Sonnet em três benchmarks.

Após o lançamento desses dois modelos de código aberto, recentemente, profissionais da indústria também expressaram suas opiniões sobre o modelo. O fundador e presidente da 360, Zhou Hongyi, acredita que esses dois modelos de código aberto têm um desempenho muito forte e devem superar em muito o GPT-3.5. A chegada do Llama mais uma vez valida a confiança da empresa no código aberto.

Na China, há preocupações com a capacidade em chinês e as fraquezas em textos longos do Llama 3. Em um grupo de discussão de profissionais de grandes modelos, muitos desenvolvedores criticaram o desempenho em chinês do Llama 3, com alguns testes práticos revelando que sua capacidade em chinês não é tão boa quanto a do GPT-3.5. No entanto, alguns analistas da indústria apontam que enfraquecer a capacidade em chinês do Llama 3 não é um grande problema, pois um bom modelo em chinês não necessariamente precisa de uma grande quantidade de dados em chinês.

O Llama 3 tem uma janela de contexto de apenas 8k, o que está abaixo da média da indústria. Zhou Hongyi afirmou que o modelo de 7B (7 bilhões) de parâmetros da 360 pode lidar com textos longos de até 360k e já disponibilizou métodos de treinamento para textos longos, que podem ser aplicados ao treinamento do Llama 3 8B para compensar essa deficiência.

Após a discussão sobre a rota de código aberto e fechado provocada pelo lançamento do Llama 3 de código aberto, o CEO da Meta, Mark Zuckerberg, revelou recentemente em uma entrevista suas ideias e determinação em relação ao código aberto. Ele afirmou que, mesmo que o custo de desenvolvimento de um modelo atinja US$ 10 bilhões, se for útil para a Meta, será disponibilizado como código aberto. Zuckerberg mencionou os benefícios do código aberto, citando o exemplo do projeto de computação aberta da Meta, que economizou bilhões de dólares à empresa.

A abertura do Llama 3 desencadeou uma grande repercussão, e a Alibaba Cloud, Baidu Cloud e Tencent Cloud também perceberam a oportunidade e estão competindo para atender à demanda de capacidade computacional.

Fonte: yicai.com
Imagem principal: Li Muzi/ Xinhua

TagsFacebook Llama 3 Meta

Alibaba, Baidu e Tencent competem por capacidade computacional do Llama 3 da Meta

Desempenho do Llama 3

Categorias

Notícias Recentes

Desempenho do Llama 3

Notícias Relacionadas

Maior data center da América Latina será construído pela ByteDance no Ceará

Supercomputador da China bate recorde mundial de processamento

China deve superar 1,7 bilhão de conexões 5G até 2030

Categorias

Notícias Recentes