AMD ultrapassa 1 milhão de tokens por segundo no MLPerf 6.0 e reforça competitividade em IA generativa

A AMD anunciou resultados expressivos na edição 6.0 do MLPerf Inference, um dos principais benchmarks globais de desempenho em inteligência artificial. A empresa destacou que suas GPUs da linha Instinct MI355X ultrapassaram a marca de 1 milhão de tokens por segundo em inferência distribuída, consolidando avanços relevantes em desempenho, escalabilidade e maturidade de sua plataforma para IA generativa.

O anúncio não se limitou à apresentação de números. A companhia buscou demonstrar a evolução de sua infraestrutura completa, incluindo hardware, software e ecossistema de parceiros, como resposta às novas demandas do mercado por soluções de inferência mais robustas e escaláveis.

Avanços além do desempenho bruto

Segundo a empresa, os resultados obtidos no MLPerf Inference 6.0 representam mais do que uma melhoria incremental de desempenho. A proposta foi evidenciar a capacidade de lidar com cargas de trabalho inéditas, garantir escalabilidade em ambientes multinó e assegurar reprodutibilidade em sistemas operados por parceiros.

Esse conjunto de fatores reflete uma mudança na forma como clientes avaliam plataformas de IA. Além da performance em um único servidor, passam a ser considerados aspectos como tempo de inicialização de modelos, eficiência em escala e consistência dos resultados em diferentes ambientes.

Arquitetura voltada para inferência em larga escala

As GPUs Instinct MI355X foram desenvolvidas com base na arquitetura CDNA 4, utilizando processo de fabricação de 3 nanômetros e incorporando aproximadamente 185 bilhões de transistores. O modelo oferece suporte a novos formatos de precisão, como FP4 e FP6, além de até 288 GB de memória HBM3E.

Com capacidade de atingir até 10 petaflops nesses formatos de precisão, a plataforma permite a execução de modelos com até 520 bilhões de parâmetros em uma única GPU. A proposta é atender não apenas à necessidade de alto desempenho, mas também à execução de modelos cada vez mais complexos em ambientes de produção.

Marco histórico em inferência de IA

Um dos principais destaques da submissão foi a superação da marca de 1 milhão de tokens por segundo em inferência. O resultado foi alcançado em testes com modelos como Llama 2 70B e GPT-OSS-120B, em configurações multinó.

Esse marco indica que a infraestrutura está preparada para aplicações em escala de produção, nas quais a taxa de processamento e o tempo de resposta são fatores críticos. A capacidade de manter desempenho elevado mesmo em ambientes distribuídos reforça a viabilidade da plataforma para grandes implementações.

Evolução significativa em relação à geração anterior

Os testes também demonstraram um salto de desempenho em relação à geração anterior de GPUs da empresa. Em um cenário com o modelo Llama 2 70B, a MI355X alcançou mais de 100 mil tokens por segundo em um único servidor, representando um aumento superior a três vezes em comparação com a geração anterior.

Esse avanço é atribuído à combinação de melhorias na arquitetura, maior densidade computacional, novos formatos de precisão e otimizações no software.

Competitividade em benchmarks de referência

Nos testes comparativos com soluções concorrentes, as GPUs da AMD apresentaram desempenho competitivo em diferentes cenários, incluindo processamento offline, execução em servidores e aplicações interativas.

A consistência dos resultados em múltiplos modos de operação foi destacada como um diferencial, indicando que a plataforma é capaz de atender a diferentes tipos de carga de trabalho sem comprometer a eficiência.

Expansão para novas categorias de IA

Outro ponto relevante foi a inclusão de cargas de trabalho inéditas no benchmark, como o modelo GPT-OSS-120B e aplicações de geração de vídeo a partir de texto.

No caso do modelo Wan-2.2-t2v, voltado para criação de vídeo, os resultados demonstraram que a empresa já está preparada para lidar com aplicações multimodais, que combinam diferentes tipos de dados e exigem maior capacidade computacional.

Essa expansão reflete a evolução da inteligência artificial generativa, que vem incorporando novos formatos além do texto, como imagem, áudio e vídeo.

Escalabilidade em múltiplos nós

A capacidade de escalar aplicações em ambientes distribuídos foi outro destaque da apresentação. Em testes com múltiplos nós, a plataforma manteve eficiência próxima ao ideal, mesmo com o aumento do número de GPUs.

Em uma configuração com dezenas de unidades, a empresa conseguiu manter altos níveis de desempenho com baixa perda de eficiência, o que é essencial para aplicações em larga escala.

Essa característica é considerada fundamental para a evolução de infraestruturas de IA, que tendem a operar em clusters cada vez maiores.

Ecossistema e reprodutibilidade

A AMD também enfatizou a participação de parceiros na validação dos resultados. Empresas como Dell Technologies, Cisco e HPE realizaram submissões utilizando diferentes configurações de hardware, demonstrando consistência nos resultados.

A variação de desempenho entre os sistemas foi mínima, o que indica que os números apresentados podem ser reproduzidos em ambientes reais, reduzindo riscos para empresas que pretendem adotar a tecnologia.

Inferência heterogênea e distribuição geográfica

Um dos experimentos apresentados envolveu a utilização de diferentes gerações de GPUs em uma mesma infraestrutura, operando em locais distintos. A configuração demonstrou que é possível combinar equipamentos variados e distribuídos geograficamente sem comprometer o desempenho.

Esse tipo de abordagem permite que empresas aproveitem infraestruturas já existentes, reduzindo custos e aumentando a flexibilidade operacional.

Papel do software na evolução da plataforma

O software ROCm, desenvolvido pela AMD, foi apontado como elemento central para os resultados alcançados. A plataforma permite otimizar o uso do hardware, melhorar a comunicação entre GPUs e facilitar a execução de modelos complexos.

Além disso, o sistema contribui para a rápida adaptação a novos modelos e cargas de trabalho, um fator cada vez mais importante diante da velocidade de evolução da inteligência artificial.

Perspectivas para o futuro

Os resultados apresentados fazem parte de uma estratégia mais ampla da empresa, que inclui atualizações anuais em sua linha de GPUs e o desenvolvimento de soluções em escala de rack para aplicações de grande porte.

A próxima geração, baseada na arquitetura CDNA 5, deve ampliar ainda mais a capacidade de processamento e consolidar a posição da empresa no mercado de infraestrutura para IA.

Conclusão

A participação da AMD no MLPerf Inference 6.0 evidencia um avanço significativo em sua estratégia para inteligência artificial generativa. Ao combinar desempenho elevado, escalabilidade eficiente e um ecossistema consolidado, a empresa busca se posicionar como uma alternativa competitiva no mercado dominado por grandes fornecedores de hardware.

Os resultados indicam que a disputa por liderança em infraestrutura de IA tende a se intensificar, com foco não apenas em desempenho, mas também em flexibilidade, custo e capacidade de adaptação às novas demandas do setor.

AMD ultrapassa 1 milhão de tokens por segundo no MLPerf 6.0 e reforça competitividade em IA generativa