A Sakana AI, em colaboração com a NVIDIA, lançou o TwELL, um formato de dados esparsos de código aberto e núcleos de aceleração que aumentam a eficiência da GPU ao pular cálculos ineficazes. Essa inovação aumenta a velocidade de inferência do H100 em até 30% e a velocidade de treinamento em até 24%, sem comprometer a precisão do modelo. O TwELL aborda a ineficiência nas camadas de rede feedforward de grandes modelos, onde mais de 80% dos neurônios permanecem inativos durante a geração de texto. O TwELL otimiza as operações da GPU dividindo os dados em pequenos blocos, permitindo que as GPUs os processem de forma eficiente e eliminando operações custosas de memória global. Testes em um modelo com 1,5 bilhão de parâmetros mostraram que apenas 2% dos neurônios precisavam de cálculo, mantendo o desempenho em várias tarefas. À medida que os modelos aumentam de escala, essa otimização pode gerar melhorias de desempenho ainda maiores, com modelos maiores mostrando uma redução significativa nas proporções de neurônios ativos.