Réseaux de neurones photoniques programmables combinant WDM et optique linéaire cohérente

Blog

MaisonMaison / Blog / Réseaux de neurones photoniques programmables combinant WDM et optique linéaire cohérente

Aug 13, 2023

Réseaux de neurones photoniques programmables combinant WDM et optique linéaire cohérente

Scientific Reports volume 12, Numéro d'article : 5605 (2022) Citer cet article 4884 Accès 19 Citations 1 Détails des métriques altmétriques La photonique neuromorphique s'est appuyée jusqu'à présent soit uniquement sur des méthodes cohérentes, soit

Rapports scientifiques volume 12, Numéro d'article : 5605 (2022) Citer cet article

4884 Accès

19 citations

1 Altmétrique

Détails des métriques

Jusqu'à présent, la photonique neuromorphique s'est appuyée uniquement sur des conceptions cohérentes ou de multiplexage par répartition en longueur d'onde (WDM) pour permettre la multiplication de produits scalaires ou de vecteur par matrice, ce qui a conduit à une variété impressionnante d'architectures. Ici, nous allons plus loin et utilisons le WDM pour enrichir la disposition avec des capacités de parallélisation à travers les étapes de répartition et/ou de pondération au lieu de servir l'objectif de calcul et présentons, pour la première fois, une architecture neuronale qui combine une optique cohérente avec le WDM vers une plate-forme de réseau neuronal programmable multifonctionnelle. Notre plate-forme reconfigurable prend en charge quatre modes opérationnels différents sur le même matériel photonique, prenant en charge des couches multicouches, convolutives, entièrement connectées et économes en énergie. Nous validons mathématiquement les performances réussies dans les quatre modes opérationnels, en tenant compte de la diaphonie, de l'espacement des canaux et de la dépendance spectrale des éléments optiques critiques, concluant à un fonctionnement fiable avec une erreur relative MAC \(< 2\%\).

La croissance explosive de l’intelligence artificielle (IA) et du Deep Learning (DL) ainsi que l’intégration photonique mature ont créé une nouvelle fenêtre d’opportunité pour l’utilisation de l’optique dans les tâches informatiques1,2,3,4,5. L'utilisation de photons et de technologies optiques pertinentes dans le matériel des réseaux neuronaux (NN) devrait offrir une augmentation significative des opérations de multiplication-accumulation (MAC) par seconde par rapport aux plates-formes électroniques NN respectives, l'énergie de calcul et l'efficacité de la zone étant estimées atteindre < fJ/MAC et > TMAC/s/mm\(^{2}\), respectivement6,7. La voie vers la réalisation de ce changement de paradigme matériel NN vise à exploiter les débits de ligne élevés pris en charge par les technologies photoniques intégrées ainsi que la fonction de pondération de petite taille et de faible consommation qui peut être offerte à l'échelle des puces4,8. Jusqu'à présent, la grande majorité des dispositifs photoniques utilisés à des fins de pondération ont mis l'accent sur des éléments lentement reconfigurables, tels que les déphaseurs thermo-optiques (T/O)9,10 et les structures de mémoire non volatile basées sur des matériaux à changement de phase (PCM)4,8. , ce qui implique que les applications d'inférence sont actuellement considérées comme la cible principale dans le domaine de la photonique neuromorphique3.

Les moteurs d'inférence nécessitent en effet une architecture neuronale plutôt statique et un graphe de connectivité des couches qui est généralement défini pour effectuer de manière optimale une certaine tâche d'IA. Le suivi des objets et la classification des images, par exemple, sont généralement effectués via un certain nombre de couches convolutives suivies d'une ou plusieurs couches entièrement connectées (FC), tandis que les encodeurs automatiques nécessitent des étapes en cascade de couches FC11,12. Bien que les couches convolutives et FC comprennent des éléments architecturaux critiques dans presque toutes les plates-formes d'inférence, un large ensemble de paramètres, tels que le nombre de couches et/ou de neurones par couche et le graphique de connectivité, peuvent varier considérablement en fonction de l'architecture et de l'application DL ciblées. Les implémentations électroniques peuvent se résumer à des circuits intégrés spécifiques à une application (ASIC) personnalisés pour une tâche d'inférence spécifique, mais l'utilisation de GPU, de TPU ou même de FPGA devient inévitable lorsque la reprogrammabilité et la reconfigurabilité sont requises afin d'utiliser le même matériel pour plusieurs applications13.

Le transfert de la capacité de reconfiguration vers les implémentations Photonic (P)-NN nécessite une plate-forme capable de prendre en charge de manière flexible différentes configurations fonctionnelles sur le même matériel neuronal. La programmabilité en photonique a fait des progrès significatifs au cours des dernières années14,15,16 et il a été démontré que les circuits intégrés photoniques (PIC) programmables offrent des avantages importants pour la libération de plates-formes photoniques rentables, flexibles et multifonctionnelles qui peuvent suivre de près le concept de FPGA électroniques17. Dans cet effort, il a également été souligné que la simple utilisation de commutateurs interférométriques Mach-Zehnder (MZI) lentement reconfigurables \(2 \times 2\) dans un schéma architectural approprié peut produire un large éventail de connectivités de circuits et d'options de fonctionnalités14,15. . Cependant, la particularité des architectures NN doit évoluer vers des fonctionnalités alternatives qui ne sont actuellement pas encore offertes par les implémentations photoniques programmables. Bien que la reconfiguration de la valeur de poids puisse effectivement être offerte par une technologie de pondération photonique de pointe4,8,9,10 et qu'un changement de perspective vers des fonctions d'activation programmables ait également commencé à émerger16,18,19, les architectures photoniques neuromorphiques démontrées jusqu'à présent ne prennent en charge aucun mécanisme de reconfiguration de leurs stades neuronaux linéaires. Les PNN ont jusqu'à présent progressé selon deux catégories architecturales principales pour réaliser des couches neuronales linéaires, où les plates-formes multiplexées par répartition en longueur d'onde (WDM) et cohérentes semblent suivre des feuilles de route discrètes et parallèles : (i) des configurations incohérentes ou basées sur WDM, où une longueur d'onde discrète est utilisée pour chaque axone dans le même neurone3,4,20, et (ii) des schémas interférométriques cohérents, dans lesquels une seule longueur d'onde est utilisée sur l'ensemble du neurone, exploitant les interférences entre les champs électriques cohérents pour des opérations de somme pondérées9,10.

4\) and \(N>2\) is imposed, respectively). Index n in the implementation (a) is set to \(n \le 4\) to denote that the lit nth branch carries a non-zero input. Similarly, if the number of available wavelengths M exceeds the number of required ones, the excess LDs are powered off./p> 90\%\) of analyzed random sets./p>