IA alcança 10x mais eficiência com nova compressão

A tecnologia de IA alcançou um marco significativo com avanços na compressão e quantização de modelos, atingindo um aumento de até 10 vezes na velocidade de inferência em CPU e redução do tamanho do modelo, de acordo com o artigo DartQuant publicado em novembro de 2025. Essas descobertas permitem que a IA empresarial escale de forma mais eficiente sem recursos computacionais substanciais, mantendo uma perda mínima de precisão. A IA de borda também passou por uma revolução de velocidade, com a inferência no dispositivo agora capaz de processar mais de 100 tokens por segundo para pré-preenchimento e até 70 tokens por segundo para decodificação em dispositivos móveis comerciais, com base em benchmarks de 2024-2025. Esse desenvolvimento traz capacidades de IA em nível empresarial para dispositivos móveis. Além disso, a sinergia entre hardware e software, incluindo o Dynamo e TensorRT-LLM da NVIDIA, juntamente com unidades de processamento neural, permitiu que modelos como Llama e Nemotron alcançassem velocidades de inferência de 2,1 a 3,0 vezes mais rápidas, enquanto reduzem a demanda por recursos, conforme relatado pela NVIDIA e Red Hat em 2025.