Meta, MIT et d'autres testent un bras robotique dans une infrastructure d'IA optique

Blog

MaisonMaison / Blog / Meta, MIT et d'autres testent un bras robotique dans une infrastructure d'IA optique

Jul 14, 2023

Meta, MIT et d'autres testent un bras robotique dans une infrastructure d'IA optique

Par Agam Shah 19 avril 2023 Des chercheurs de Meta, du MIT et d'autres institutions ont connecté des serveurs avec une douzaine de GPU Nvidia avec des commutateurs optiques et un bras robotique, concevant une nouvelle interconnexion qui pourrait

Par Agam Shah

19 avril 2023

Des chercheurs du Meta, du MIT et d'autres institutions ont connecté des serveurs avec une douzaine de GPU Nvidia dotés de commutateurs optiques et d'un bras robotique, concevant ainsi une nouvelle interconnexion qui pourrait être utilisée pour l'apprentissage automatique. La structure, appelée « TopoOpt », peut créer des topologies de réseau à la volée en fonction des besoins informatiques. Cette technologie intervient alors que les ordinateurs hautes performances sont mis à rude épreuve par l'adoption plus large de technologies d'IA telles que ChatGPT, qui teste les limites du supercalcul IA de Microsoft.

Un article sur la technologie a été présenté lors du symposium USENIX sur la conception et la mise en œuvre de systèmes en réseau qui s'est tenu cette semaine.

TopoOpt utilise des algorithmes pour trouver les techniques de calcul parallèle les plus rapides en fonction d'informations telles que les exigences de traitement, les ressources informatiques disponibles, les techniques de routage des données et la topologie du réseau. Les chercheurs ont également amélioré la fonctionnalité AllReduce de Nvidia, qui minimise le temps de communication entre les GPU et d'autres composants.

"TopoOpt crée des partitions dédiées pour chaque tâche de formation à l'aide de commutateurs optiques et de panneaux de brassage reconfigurables, et optimise conjointement la topologie et la stratégie de parallélisation au sein de chaque partition", ont écrit les chercheurs.

Les chercheurs ont testé TopoOpt au sein de l'infrastructure Meta, en utilisant une douzaine de serveurs Asus ESC4000A-E10, chacun équipé d'un GPU A100, de cartes réseau HPE et d'une carte réseau Mellanox ConnectX5 de 100 Gbit/s. Les cartes réseau étaient équipées d'émetteurs-récepteurs optiques avec des fibres de dérivation.

"TopoOpt est le premier système qui co-optimise la topologie et la stratégie de parallélisation pour les charges de travail ML et est actuellement en cours d'évaluation pour son déploiement chez Meta", ont déclaré les chercheurs.

La configuration utilise également un panneau de brassage de Telescent qui reconfigure un réseau à l'aide « d'un bras robotique qui saisit une fibre du côté transmission et la connecte à une fibre du côté réception », indique le journal. Le bras robotique, contrôlé par logiciel, se déplace de haut en bas pour relier la fibre de transmission à une fibre de réception n'importe où dans le système. Cela offre la flexibilité et l’élasticité nécessaires pour reconfigurer rapidement un réseau. Les panneaux de brassage sont déjà largement utilisés dans les applications commerciales, mais sont désormais proposés pour une utilisation dans les centres de données.

Google a récemment présenté un article détaillant comment il a utilisé un supercalculateur IA avec des commutateurs de circuits optiques pour améliorer les vitesses d'entraînement sur ses puces TPU v4 tout en réduisant la consommation d'énergie. La commutation de circuits optiques (OCS) dans la configuration de Google n'est pas aussi mobile qu'un bras robotique, mais utilise des miroirs pour basculer entre les fibres d'entrée et de sortie. La configuration de Google constituait également un banc d'essai plus vaste, avec un déploiement à grande échelle sur 4 096 TPU.

Les chercheurs ont opté pour le panneau de brassage car ils ont constaté que les commutateurs optiques de type Google étaient « cinq fois plus chers » et qu'ils prenaient également en charge moins de ports. Dans le même temps, les chercheurs ont déclaré que la technologie OCS, comme celle utilisée par Google, est destinée aux déploiements à grande échelle. "Le principal avantage des OCS est que leur temps de latence de reconfiguration est quatre fois plus rapide que celui des panneaux de brassage", ont écrit les chercheurs.

TopoOpt pré-provisionne les exigences de calcul et de réseau et est prêt à fonctionner une fois que les serveurs sont prêts et que la tâche est prête à être déployée. "Nous connaissons déjà la séquence d'arrivée des tâches et le nombre de serveurs requis par chaque tâche", ont écrit les chercheurs, ajoutant que "cette conception permet à chaque serveur de participer à deux topologies indépendantes".

Les chercheurs ont conclu que TopoOpt fournissait un temps d'itération de formation 3,4 fois plus rapide qu'une autre technique appelée « fat-tree », dans laquelle l'épine dorsale du réseau est la pièce maîtresse de l'infrastructure, qui transmet ensuite les données à plusieurs couches de commutateurs statiques reliant le back-end du réseau principal. matériel aux serveurs frontaux. Cette technique est largement utilisée aujourd’hui.

L'utilisation de réseaux optiques dans un centre de données est un nouveau concept, et les chercheurs introduisent le bras robotique et un nouveau protocole de communication comme moyen moins coûteux de construire une infrastructure de réseau d'IA. La viabilité de la technologie est testée par Meta.