O Google revelou uma nova técnica chamada Previsão Multi-Token (MTP) que acelera significativamente as velocidades de inferência de IA em até três vezes, sem a necessidade de novo hardware. Este avanço, parte da família de modelos Gemma 4 do Google, utiliza decodificação especulativa para melhorar a eficiência do processamento. Ao integrar um modelo "previsor" menor e rápido com o modelo principal de IA, o MTP permite que múltiplos tokens sejam previstos simultaneamente, reduzindo o tempo necessário para gerar sequências.
A abordagem mantém a qualidade de grandes modelos, como o Gemma 4 com 31 bilhões de parâmetros, validando as previsões em uma única passagem direta. Os benchmarks do Google mostram que ativar o MTP em um chip Gemma 4 26B com uma GPU Nvidia RTX Pro 6000 quase dobra a velocidade de processamento de tokens, enquanto os chips Apple Silicon apresentam um aumento de velocidade de 2,2 vezes. Esse desenvolvimento promete melhorar a capacidade de resposta em aplicações que exigem baixa latência, como chats em tempo real e interfaces de voz, utilizando hardware de consumo já existente.
Google apresenta inferência de IA 3 vezes mais rápida com previsão de múltiplos tokens
Aviso Legal: O conteúdo disponibilizado no Phemex News é apenas para fins informativos. Não garantimos a qualidade, precisão ou integridade das informações provenientes de artigos de terceiros. Este conteúdo não constitui aconselhamento financeiro ou de investimento. Recomendamos fortemente que você realize suas próprias pesquisas e consulte um consultor financeiro qualificado antes de tomar decisões de investimento.
