IA logra 10x más eficiencia con nueva compresión de modelo

La tecnología de IA ha alcanzado un hito significativo con avances en la compresión y cuantificación de modelos, logrando hasta un aumento de 10 veces en la velocidad de inferencia en CPU y una reducción del tamaño del modelo, según el artículo DartQuant publicado en noviembre de 2025. Estos avances permiten que la IA empresarial escale de manera más eficiente sin requerir recursos computacionales sustanciales, manteniendo una pérdida mínima de precisión. La IA en el borde también ha experimentado una revolución en velocidad, con la inferencia en el dispositivo ahora capaz de procesar más de 100 tokens por segundo para prellenado y hasta 70 tokens por segundo para decodificación en dispositivos móviles comerciales, según los puntos de referencia de 2024-2025. Este desarrollo lleva las capacidades de IA a nivel empresarial a los dispositivos móviles. Además, la sinergia entre hardware y software, incluyendo Dynamo y TensorRT-LLM de NVIDIA, junto con unidades de procesamiento neuronal, ha permitido que modelos como Llama y Nemotron logren velocidades de inferencia entre 2.1 y 3.0 veces más rápidas mientras reducen la demanda de recursos, según informes de NVIDIA y Red Hat en 2025.