Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

Mais recente grande modelo de linguagem de código aberto da Meta — construído com tecnologia da NVIDIA — é otimizado para ser executado em GPUs da NVIDIA desde a nuvem e o centro de dados até a borda e o PC

A NVIDIA anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela NVIDIA equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado na IA da NVIDIA

Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand. Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

Para avançar ainda mais o estado da arte em IA generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

Colocando o Llama 3 para trabalhar

Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis para uso na nuvem, centro de dados, borda e PC.

A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço NVIDIA NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

Meta Llama

Empresas podem ajustar o Llama 3 com seus dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server da NVIDIA.

Levando o Llama 3 para dispositivos e PCs

O Llama 3 também é executado no NVIDIA Jetson Orin para robótica e dispositivos de computação de borda, criando agentes interativos como os do Jetson AI Lab.

Além disso, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Obtenha desempenho ótimo com o Llama 3

As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia entregar 24.000 tokens/segundo, otimizando ainda mais os custos ao suportar mais de 2.400 usuários ao mesmo tempo.

Para dispositivos de borda, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Avançando em modelos comunitários

Uma contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência AI da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

“Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda”, reforça Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

Continue lendo:

E se você gostou do nosso conteúdo, apoie-nos através das nossas redes sociais e acompanhe nosso podcast

Facebook RSS Youtube Spotify Twitch


Receba conteúdos exclusivos!

Garantimos que você não irá receber spam!

Compartilhe essa matéria!
Pedro Hilário
Pedro Hilário

Nerd, gamer, amante de HQs, filmes de terror, colecionador de CDs de bandas que ninguém conhece, barman e Streamer. Prazer, eu sou Hilário.

Artigos: 1330
Se inscrever
Notificar de
guest
0 Comentários
Feedbacks em linha
Ver todos os comentários