Ampla abertura: NVIDIA acelera a inferência no Meta Llama 3

A NVIDIA anuncia otimizações em todas as suas plataformas para acelerar o Meta Llama 3, a mais recente geração do grande modelo de linguagem (LLM). O modelo aberto combinado com computação acelerada pela NVIDIA equipa desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.

Treinado na IA da NVIDIA

Os engenheiros da Meta treinaram o Llama 3 em clusters de computadores com 24.576 GPUs NVIDIA H100 Tensor Core, conectados com redes RoCE e NVIDIA Quantum-2 InfiniBand. Com o apoio da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu LLM de ponta.

CONTINUA DEPOIS DA PUBLICIDADE

Para avançar ainda mais o estado da arte em IA generativa, a Meta recentemente descreveu planos para escalar sua infraestrutura para 350.000 GPUs H100.

Colocando o Llama 3 para trabalhar

Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis para uso na nuvem, centro de dados, borda e PC.

A partir de um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com. Ele é empacotado como um microsserviço NVIDIA NIM com uma interface de programação de aplicações padrão que pode ser implantada em qualquer lugar.

Empresas podem ajustar o Llama 3 com seus dados usando o NVIDIA NeMo, um framework de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise, segura e suportada. Modelos personalizados podem ser otimizados para inferência com o TensorRT-LLM da NVIDIA e implantados com o Triton Inference Server da NVIDIA.

Levando o Llama 3 para dispositivos e PCs

O Llama 3 também é executado no NVIDIA Jetson Orin para robótica e dispositivos de computação de borda, criando agentes interativos como os do Jetson AI Lab.

Além disso, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores um alvo de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.

Obtenha desempenho ótimo com o Llama 3

As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ótimo de GPU para reduzir custos.

Um serviço desse tipo precisa entregar tokens — o equivalente aproximado de palavras para um LLM — a cerca de duas vezes a velocidade de leitura de um usuário, que é cerca de 10 tokens/segundo.

Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.

Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia entregar 24.000 tokens/segundo, otimizando ainda mais os custos ao suportar mais de 2.400 usuários ao mesmo tempo.

Para dispositivos de borda, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.

Avançando em modelos comunitários

Uma contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software da comunidade que ajuda os usuários a enfrentar seus desafios mais difíceis. Modelos de código aberto também promovem transparência na IA e permitem que os usuários compartilhem amplamente o trabalho sobre segurança e resiliência da IA.

Saiba mais sobre como a plataforma de inferência AI da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de ponta, como adaptação de baixa classificação, para acelerar os mais recentes LLMs.

“Estamos entusiasmados em oferecer mais essa tecnologia de IA da NVIDIA para impulsionar a inovação. Com o Meta Llama 3 otimizado para nossas GPUs, estamos capacitando desenvolvedores e empresas a explorar todo o potencial da inteligência artificial em uma variedade de aplicações, desde a nuvem até dispositivos de borda”, reforça Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.

Continue lendo: