Google'ın Çoklu Token Tahmini AI Hızını 3 Kat Artırıyor

Google, yeni donanım gerektirmeden yapay zeka çıkarım hızlarını üç kata kadar önemli ölçüde artıran Çoklu Token Tahmini (MTP) adlı yeni bir teknik tanıttı. Google'ın Gemma 4 model ailesinin bir parçası olan bu gelişme, işlem verimliliğini artırmak için spekülatif kod çözmeyi kullanıyor. Daha küçük ve hızlı bir "tahminci" modeli ana yapay zeka modeliyle entegre ederek, MTP birden fazla tokenın aynı anda tahmin edilmesine olanak tanıyor ve böylece dizilerin oluşturulması için gereken süreyi azaltıyor. Bu yaklaşım, 31 milyar parametreli Gemma 4 gibi büyük modellerin kalitesini, tahminleri tek bir ileri geçişte doğrulayarak koruyor. Google'ın kıyaslamaları, Nvidia RTX Pro 6000 GPU ile donatılmış Gemma 4 26B çipinde MTP'nin etkinleştirilmesinin token işleme hızını neredeyse iki katına çıkardığını, Apple Silicon çiplerinde ise 2,2 kat hız artışı sağladığını gösteriyor. Bu gelişme, mevcut tüketici donanımı kullanılarak gerçek zamanlı sohbet ve ses arayüzleri gibi düşük gecikme gerektiren uygulamalarda yanıt verme hızını artırmayı vaat ediyor.