Apple et NVIDIA : recherche sur des performances plus rapides des LLM

Apple collaborates with NVIDIA to research faster LLM performance

Récemment, des ingénieurs d’Apple ont apporté des précisions sur une collaboration particulièrement prometteuse avec NVIDIA. Cette synergie vise à améliorer la rapidité de génération de texte au sein des grands modèles de langage (LLM). Un enjeu majeur qui pourrait transformer la manière dont ces technologies sont intégrées dans les applications de production.

Une innovation décisive avec ReDrafter

Au début de l’année, Apple a divulgué sa technique Recurrent Drafter (ReDrafter), une approche novatrice d’un nouveau genre pour la génération de texte. Ce procédé allie deux stratégies complémentaires : la recherche par faisceaux, qui explore diverses options, et l’attention dynamique d’arbre, qui traite efficacement les choix à faire.

Cette conception audacieuse promet des performances supérieures, atteignant ce qui se fait de mieux dans le domaine. En combinant ces méthodes, Apple a réussi à mettre au point une solution qui se démarque nettement de la concurrence, tant par sa rapidité que par son efficacité.

Une collaboration qui porte ses fruits

Pour perfectionner ReDrafter, Apple et NVIDIA ont uni leurs forces afin de l’intégrer dans la puissante plateforme NVIDIA TensorRT-LLM. Cet outil conçu pour optimiser les performances des LLM sur les GPU NVIDIA constitue un élément clé de cette avancée technologique.

NVIDIA, dans le cadre de cette collaboration, a ajouté de nouveaux opérateurs ou réutilisé des opérateurs existants. Cela a considérablement élargi les capacités de TensorRT-LLM, permettant ainsi aux développeurs d’intégrer plus facilement ReDrafter à leurs modèles.

Les résultats ne se sont pas fait attendre : une récente série de tests sur un modèle de production de plusieurs dizaines de milliards de paramètres a montré un gain de vitesse de 2,7x lors de la génération de tokens par seconde en mode de décodage avide. Cette performance impressionnante pourrait réduire considérablement la latence pour les utilisateurs tout en nécessitant moins de ressources GPU et une consommation énergétique réduite.

Les chercheurs en apprentissage automatique d’Apple notent que l’efficacité du processus de décodage peut avoir un impact direct sur les coûts informatiques et la fluidité des applications. Grâce à l’intégration de ReDrafter dans TensorRT-LLM, les développeurs ont désormais accès à une génération de tokens rapide sur les GPU NVIDIA, facilitant ainsi leurs projets en production.

Ces avancées témoignent de l’importance d’optimiser la performance des modèles de langage tout en élevant l’expérience utilisateur à un nouveau niveau.