Un fabricant de GPU dépasse les benchmarks MLPerf sur les réseaux neuronaux de graphes

Nvidia domine les nouveaux benchmarks MLPerf sur les réseaux neuronaux de graphes et le fine-tuning des modèles de langage

Ces dernières années, Nvidia s’est imposé comme le leader incontesté des benchmarks de machine learning, et les derniers tests MLPerf ne font que renforcer cette domination. Considéré comme les « Olympiades du machine learning », MLPerf a récemment publié une nouvelle série de tests de formation. Ces derniers permettent de comparer plus précisément les systèmes informatiques concurrents. Parmi les nouveaux tests, l’un se concentre sur le fine-tuning des grands modèles de langage (LLM), un processus qui affine un modèle déjà entraîné pour une tâche spécifique. L’autre se concentre sur les réseaux neuronaux de graphes (GNN), utilisés notamment dans les bases de données littéraires, la détection de fraudes financières et les réseaux sociaux.

Malgré la participation de systèmes utilisant les accélérateurs d’IA de Google et Intel, les systèmes alimentés par l’architecture Hopper de Nvidia ont une fois de plus dominé les résultats. Un système comprenant 11 616 GPU Nvidia H100, la plus grande collection jamais réunie, a surpassé chacun des neuf benchmarks, établissant des records dans cinq d’entre eux, y compris les deux nouveaux benchmarks.

Nvidia : Une performance inégalée

Le système de 11 616 H100 est le plus grand jamais construit par Nvidia. Dave Salvator, directeur des produits de calcul accéléré chez Nvidia, a déclaré que ce système a réussi l’épreuve de formation de GPT-3 en moins de 3,5 minutes. À titre de comparaison, un système de 512 GPU a pris environ 51 minutes pour la même tâche. Bien qu’il ne s’agisse pas d’une formation complète de GPT-3, qui pourrait prendre des semaines et coûter des millions de dollars, les résultats sont tout de même impressionnants.

Par rapport au plus grand système de Nvidia l’année dernière, comprenant 3 584 H100, le résultat de 3,5 minutes représente une amélioration de 3,2 fois. Vous pourriez vous attendre à une telle amélioration simplement en raison de la taille des systèmes, mais ce n’est pas toujours le cas dans le domaine de l’informatique d’IA. « Si vous vous contentez d’ajouter du matériel, il n’est pas garanti que vous améliorerez les performances », explique Salvator.

« Nous obtenons une mise à l’échelle linéaire », ajoute Salvator. Cela signifie que deux fois plus de GPU réduisent de moitié le temps de formation, ce qui représente une grande réussite pour les équipes d’ingénierie de Nvidia.

La compétition s’intensifie

Les concurrents se rapprochent également de la mise à l’échelle linéaire. Intel a déployé un système utilisant 1 024 GPU qui a réalisé la tâche de GPT-3 en 67 minutes, contre 224 minutes pour un ordinateur de taille équivalente il y a six mois. L’entrée la plus grande de Google pour GPT-3 a utilisé 12 fois plus d’accélérateurs TPU v5p que son entrée la plus petite et a accompli la tâche neuf fois plus rapidement.

La mise à l’échelle linéaire sera particulièrement importante pour les futures « usines d’IA » abritant 100 000 GPU ou plus. Salvator prévoit qu’un tel centre de données entrera en service cette année, et un autre, utilisant la prochaine architecture de Nvidia, Blackwell, débutera en 2025.

Les améliorations continues de Nvidia

Nvidia a continué à accélérer les temps de formation malgré l’utilisation de la même architecture, Hopper, que l’année dernière. Ces gains sont principalement attribués à des améliorations logicielles. « Nous obtenons généralement une augmentation de 2 à 2,5 fois grâce au logiciel après la sortie d’une nouvelle architecture », déclare Salvator.

Pour la formation GPT-3, Nvidia a enregistré une amélioration de 27 % par rapport aux benchmarks MLPerf de juin 2023. Plusieurs changements logiciels expliquent cette amélioration. Par exemple, les ingénieurs de Nvidia ont optimisé l’utilisation des opérations en virgule flottante de 8 bits de Hopper en réduisant les conversions inutiles entre les nombres de 8 bits et de 16 bits. De plus, Nvidia a trouvé une manière plus intelligente d’ajuster le budget énergétique des unités de calcul de chaque puce, accélérant ainsi la communication entre les GPU.

En outre, l’entreprise a mis en œuvre un schéma appelé flash attention, un algorithme inventé dans le laboratoire de Chris Ré à l’Université de Stanford. Flash attention accélère les réseaux de transformateurs en minimisant les écritures en mémoire. Lorsqu’il est apparu pour la première fois dans les benchmarks MLPerf, il a réduit les temps de formation jusqu’à 10 %.

En utilisant d’autres astuces logicielles et de réseau, Nvidia a réalisé une accélération de 80 % dans le test de texte-à-image, Stable Diffusion, par rapport à sa soumission de novembre 2023.

Nouveaux benchmarks

MLPerf ajoute de nouveaux benchmarks et améliore les anciens pour rester pertinent par rapport à l’évolution de l’industrie de l’IA. Cette année, deux nouveaux benchmarks ont été ajoutés : le fine-tuning et les réseaux neuronaux de graphes.

Le fine-tuning consiste à spécialiser un LLM déjà formé pour une utilisation dans un domaine particulier. Par exemple, Nvidia a pris un modèle de 43 milliards de paramètres et l’a formé sur les fichiers de conception et la documentation de l’entreprise pour créer ChipNeMo, une IA destinée à améliorer la productivité de ses concepteurs de puces. Selon Bill Dally, directeur technique de Nvidia, former un LLM revient à lui donner une éducation en arts libéraux, et le fine-tuning, c’est comme l’envoyer en école de troisième cycle.

Le benchmark MLPerf utilise un modèle pré-entraîné Llama-2-70B et demande au système de le peaufiner en utilisant un ensemble de données de documents gouvernementaux. L’objectif est de générer des résumés de documents plus précis.

Il existe plusieurs méthodes de fine-tuning. MLPerf a choisi une méthode appelée adaptation de faible rang (LoRA). Cette méthode entraîne une petite portion des paramètres du LLM, ce qui réduit la charge sur le matériel et diminue l’utilisation de la mémoire et du stockage.

L’autre nouveau benchmark concerne les réseaux neuronaux de graphes (GNN). Ceux-ci sont utilisés pour des problèmes pouvant être représentés par un très grand ensemble de nœuds interconnectés, tels qu’un réseau social ou un système de recommandation. Comparés à d’autres tâches d’IA, les GNN nécessitent beaucoup de communication entre les nœuds d’un ordinateur.

Le benchmark a entraîné un GNN sur une base de données montrant les relations entre auteurs académiques, articles et institutions, un graphe avec 547 millions de nœuds et 5,8 milliards d’arêtes. Le réseau neuronal a ensuite été entraîné pour prédire le bon label pour chaque nœud du graphe.

Regard vers l’avenir

Les sessions de formation de 2025 pourraient voir des compétitions directes entre les nouveaux accélérateurs d’AMD, Intel et Nvidia. La série MI300 d’AMD a été lancée il y a environ six mois, et une mise à niveau, la MI325x, est prévue pour la fin de 2024, avec la génération suivante, la MI350, prévue pour 2025. Intel prévoit que son Gaudi 3, disponible pour les fabricants d’ordinateurs plus tard cette année, apparaîtra dans les prochains benchmarks d’inférence de MLPerf. Les dirigeants d’Intel ont déclaré que la nouvelle puce a la capacité de battre le H100 dans la formation des LLM. Cependant, la victoire pourrait être de courte durée, car Nvidia a dévoilé une nouvelle architecture, Blackwell, prévue pour la fin de cette année.

Nvidia continue de repousser les limites de la performance en matière de machine learning, consolidant ainsi sa position de leader avec ses avancées récentes. Grâce à des améliorations logicielles et une mise à l’échelle linéaire impressionnante, l’entreprise reste à la pointe de l’innovation en IA. Les futurs benchmarks s’annoncent passionnants, avec une concurrence accrue et des technologies toujours plus avancées. Restez à l’écoute pour les prochains développements dans cet univers en constante évolution.

Retour en haut