Tether a introduit un cadre de fine-tuning BitNet LoRA multiplateforme au sein de QVAC Fabric, conçu pour optimiser l'entraînement et l'inférence des modèles Microsoft BitNet (LLM 1-bit). Cette innovation permet l'entraînement et le fine-tuning de modèles à milliards de paramètres sur des appareils grand public tels que les ordinateurs portables, les GPU grand public et les smartphones. Notamment, elle permet de fine-tuner les modèles BitNet sur des GPU mobiles, y compris Adreno, Mali et Apple Bionic, marquant une avancée significative dans les capacités de l'IA mobile. Le cadre prend en charge du matériel hétérogène, incluant Intel, AMD et Apple Silicon, et est le premier à faciliter le fine-tuning LoRA 1-bit LLM sur des appareils non-NVIDIA. Les tests de performance indiquent que l'inférence des modèles BitNet sur GPU mobiles est de 2 à 11 fois plus rapide que sur CPU, avec une utilisation de la VRAM réduite jusqu'à 77,8 % par rapport aux modèles traditionnels 16-bit. Tether souligne que cette technologie pourrait réduire la dépendance à la puissance de calcul haut de gamme et aux infrastructures cloud, favorisant la décentralisation et la localisation dans l'entraînement de l'IA.