Apple et NVIDIA : recherche sur des performances plus rapides des LLM

Récemment, des ingénieurs d’Apple ont apporté des précisions sur une collaboration particulièrement prometteuse avec NVIDIA. Cette synergie vise à améliorer la rapidité de génération de texte au sein des grands modèles de langage (LLM). Un enjeu majeur qui pourrait transformer la manière dont ces technologies sont intégrées dans les applications de production.

Une innovation décisive avec ReDrafter

Au début de l’année, Apple a divulgué sa technique Recurrent Drafter (ReDrafter), une approche novatrice d’un nouveau genre pour la génération de texte. Ce procédé allie deux stratégies complémentaires : la recherche par faisceaux, qui explore diverses options, et l’attention dynamique d’arbre, qui traite efficacement les choix à faire.

Cette conception audacieuse promet des performances supérieures, atteignant ce qui se fait de mieux dans le domaine. En combinant ces méthodes, Apple a réussi à mettre au point une solution qui se démarque nettement de la concurrence, tant par sa rapidité que par son efficacité.

Une collaboration qui porte ses fruits

Pour perfectionner ReDrafter, Apple et NVIDIA ont uni leurs forces afin de l’intégrer dans la puissante plateforme NVIDIA TensorRT-LLM. Cet outil conçu pour optimiser les performances des LLM sur les GPU NVIDIA constitue un élément clé de cette avancée technologique.

NVIDIA, dans le cadre de cette collaboration, a ajouté de nouveaux opérateurs ou réutilisé des opérateurs existants. Cela a considérablement élargi les capacités de TensorRT-LLM, permettant ainsi aux développeurs d’intégrer plus facilement ReDrafter à leurs modèles.

Les résultats ne se sont pas fait attendre : une récente série de tests sur un modèle de production de plusieurs dizaines de milliards de paramètres a montré un gain de vitesse de 2,7x lors de la génération de tokens par seconde en mode de décodage avide. Cette performance impressionnante pourrait réduire considérablement la latence pour les utilisateurs tout en nécessitant moins de ressources GPU et une consommation énergétique réduite.

Les chercheurs en apprentissage automatique d’Apple notent que l’efficacité du processus de décodage peut avoir un impact direct sur les coûts informatiques et la fluidité des applications. Grâce à l’intégration de ReDrafter dans TensorRT-LLM, les développeurs ont désormais accès à une génération de tokens rapide sur les GPU NVIDIA, facilitant ainsi leurs projets en production.

Ces avancées témoignent de l’importance d’optimiser la performance des modèles de langage tout en élevant l’expérience utilisateur à un nouveau niveau.

Apple et NVIDIA : recherche sur des performances plus rapides des LLM

Une innovation décisive avec ReDrafter

Une collaboration qui porte ses fruits

Plus d’indications sur John Ternus comme futur PDG d’Apple

iPhone Air : deux fois plus populaire que le modèle Plus qu’il remplace

Samsung déploie AirDrop sur Quick Share pour Galaxy S26 et bientôt d’autres appareils

Apple dispose déjà de la plateforme idéale pour déployer l’IA conversationnelle

Une mise à jour du MacBook Pro m’excite, même sans écran OLED

Mars plein d’activité pour Apple avec trois nouveautés importantes cette semaine

Plus d’indications sur John Ternus comme futur PDG d’Apple

iPhone Air : deux fois plus populaire que le modèle Plus qu’il remplace

Samsung déploie AirDrop sur Quick Share pour Galaxy S26 et bientôt d’autres appareils

Apple dispose déjà de la plateforme idéale pour déployer l’IA conversationnelle

Une mise à jour du MacBook Pro m’excite, même sans écran OLED

Google Photos : comment utiliser la gomme magique pour éliminer trop de personnes sur la photo

Les graphiques AMD offrent 20 % de performances de jeu en plus avec Ray Tracing pour Linux

Meta teste une vidéo selfie façon Face ID pour récupérer des comptes Instagram et Facebook