Previsão Multi-Token do Google Acelera IA em 3x

O Google revelou uma nova técnica chamada Previsão Multi-Token (MTP) que acelera significativamente as velocidades de inferência de IA em até três vezes, sem a necessidade de novo hardware. Este avanço, parte da família de modelos Gemma 4 do Google, utiliza decodificação especulativa para melhorar a eficiência do processamento. Ao integrar um modelo "previsor" menor e rápido com o modelo principal de IA, o MTP permite que múltiplos tokens sejam previstos simultaneamente, reduzindo o tempo necessário para gerar sequências. A abordagem mantém a qualidade de grandes modelos, como o Gemma 4 com 31 bilhões de parâmetros, validando as previsões em uma única passagem direta. Os benchmarks do Google mostram que ativar o MTP em um chip Gemma 4 26B com uma GPU Nvidia RTX Pro 6000 quase dobra a velocidade de processamento de tokens, enquanto os chips Apple Silicon apresentam um aumento de velocidade de 2,2 vezes. Esse desenvolvimento promete melhorar a capacidade de resposta em aplicações que exigem baixa latência, como chats em tempo real e interfaces de voz, utilizando hardware de consumo já existente.