A PrismML lançou a série Ternary Bonsai de modelos de linguagem, apresentando uma técnica de pesos ternários de 1,58 bits que reduz o uso de memória da GPU para um nono de um modelo de 16 bits, mantendo alto desempenho. A série, que inclui modelos com 8B, 4B e 1,7B parâmetros, agora está disponível como código aberto no Hugging Face e suporta dispositivos Apple nativamente. O modelo de 1,58 bits restringe os pesos da rede neural a três valores: {-1, 0, +1}, aprimorando as capacidades de raciocínio ao eliminar conexões redundantes. O modelo Ternary Bonsai 8B, com um tamanho de arquivo de peso de apenas 1,75 GB, alcança uma pontuação média de benchmark de 75,5, superando seu predecessor de 1 bit e modelos densos similares em densidade de inteligência. Ele também oferece melhor eficiência energética e velocidade de inferência, alcançando 27 tokens por segundo no iPhone 17 Pro Max com eficiência energética 3 a 4 vezes maior. Esses modelos são distribuídos sob a licença Apache 2.0, fornecendo aos desenvolvedores soluções de IA de alto desempenho para dispositivos de borda.