Le modèle TML-Interaction-Small de Thinking Machines est à égalité avec le GPT-Realtime-2 (xHigh) d'OpenAI pour la première place du classement Audio MC S2S de Scale Labs, avec un score APR de 43,4 %. Bien que le GPT-Realtime-2 (xHigh) affiche un score absolu légèrement supérieur de 48,45 contre 43,36 pour le TML-Interaction-Small, la différence reste dans les marges d'erreur statistiques, ce qui conduit à classer les deux modèles ex æquo en première position. Le deuxième niveau du classement est occupé par le GPT-Realtime-2 standard avec un score de 37,61, suivi par le Gemini 3.1 Flash Live avec le mode réflexion activé à 36,06, puis par l'ancien GPT-Realtime-1.5. Scale Labs a souligné la rare capacité du modèle TML-Interaction-Small à gérer un contexte long ainsi que ses temps de réponse rapides en conversation parmi les modèles full-duplex.