Qu'est-ce que le Mélange d'Experts?

by Stephen M. Walker II, Co-Fondateur / PDG

Qu'est-ce que le Mélange d'Experts?

Le Mélange d'Experts (MoE) est une technique d'apprentissage automatique qui intègre de plus petits réseaux "experts" à l'intérieur d'un réseau plus grand. Ces experts sont dynamiquement choisis pour chaque entrée en fonction de la tâche spécifique. MoE permet aux modèles d'augmenter la précision et le nombre de paramètres tout en maintenant les FLOPS constants. C'est une forme d'apprentissage en ensemble où les sorties de plusieurs modèles sont combinées, ce qui conduit souvent à une amélioration des performances.

Avec les mêmes FLOPS, MoE peut atteindre une bien meilleure précision que les modèles denses. Le papier Switch Transformer de Google a montré une accélération de 7x pour atteindre la même précision.
MoE surpasse également les modèles denses plus grands. Google a montré une accélération de 2x par rapport à un modèle avec 3,5x plus de FLOPS.
128 experts surpassent nettement moins d'experts ou pas d'experts étant donné le même budget FLOPS.
Chaque exemple d'entraînement apporte plus d'avantages, donc MoE aide lorsque les données sont limitées.

Malgré son existence depuis les années 1990, MoE est devenu récemment plus populaire alors que la mise à l'échelle des modèles à travers des réseaux plus larges et plus profonds atteint ses limites. Des entreprises comme Google et Microsoft résolvent rapidement les défis de MoE en matière de complexité, de formation et d'empreinte mémoire. Les défis comprennent :

Un plus grand nombre d'experts augmente le nombre total de paramètres, ce qui augmente l'empreinte mémoire.
Le routage dynamique conduit à des schémas de communication irréguliers, ce qui peut réduire l'utilisation.
Le peaufinage et l'apprentissage par transfert peuvent poser problème, mais des solutions de contournement existent.
Les goulots d'étranglement de la bande passante mémoire limitent le nombre d'experts pendant l'inférence.

Comment fonctionne le Mélange d'Experts?

Le Mélange d'Experts fonctionne en formant plusieurs modèles sur différentes parties de l'espace d'entrée. Chaque modèle devient un "expert" sur sa partie spécifique. Les sorties de ces modèles sont ensuite combinées, souvent à l'aide d'un réseau de gating, pour produire la sortie finale.

**Formation ** — Plusieurs modèles sont formés sur différentes parties de l'espace d'entrée.
**Combinaison ** — Les sorties des modèles sont combinées, souvent à l'aide d'un réseau de gating, pour produire la sortie finale.

Quelles sont les applications du Mélange d'Experts?

Le Mélange d'Experts peut être utilisé dans un large éventail de tâches d'apprentissage automatique. Cela comprend la régression, la classification, et des tâches plus complexes comme la reconnaissance d'images et le traitement du langage naturel.

**Régression ** — Le Mélange d'Experts peut être utilisé pour des tâches de régression, où l'objectif est de prédire une variable de sortie continue.
**Classification ** — Le Mélange d'Experts peut être utilisé pour des tâches de classification, où l'objectif est de prédire une variable de sortie catégorielle.
**Reconnaissance d'images ** — Le Mélange d'Experts peut être utilisé pour des tâches de reconnaissance d'images, où l'objectif est d'identifier des objets ou des caractéristiques dans les images.
**Traitement du langage naturel ** — Le Mélange d'Experts peut être utilisé pour des tâches de traitement du langage naturel, où l'objectif est de comprendre et de générer le langage humain.

Comment le Mélange d'Experts impacte-t-il l'IA?

Le Mélange d'Experts a un impact significatif sur l'IA en permettant le développement de modèles plus robustes et précis. En combinant les sorties de plusieurs modèles, le Mélange d'Experts obtient souvent de meilleures performances qu'un seul modèle ne pourrait le faire. Cependant, comme pour toute technique d'apprentissage automatique, il est important d'utiliser le Mélange d'Experts de manière responsable pour éviter les problèmes de biais et de transparence.

**Amélioration des performances ** — Le Mélange d'Experts obtient souvent de meilleures performances qu'un seul modèle ne pourrait le faire.
**Modèles robustes ** — En combinant les sorties de plusieurs modèles, le Mélange d'Experts peut créer des modèles plus robustes qui sont moins susceptibles de surajuster les données d'entraînement.
**Utilisation responsable ** — Comme pour toute technique d'apprentissage automatique, il est important d'utiliser le Mélange d'Experts de manière responsable pour éviter les problèmes de biais et de transparence.

Mélange d'Experts dans les grands modèles de langage

Le modèle MoE de Google avec 1,2 trillion de paramètres, GLaM, a égalé la précision de GPT-3 avec 1/3 de l'énergie et la moitié des FLOPS. Cela montre les avantages en termes d'efficacité de MoE à grande échelle. GPT-4 d'OpenAI utilise 16 experts. Le routage dynamique conduit à des tailles de lots imprévisibles pour chaque expert pendant l'inférence. Cela provoque des problèmes de latence et d'utilisation. Des techniques d'optimisation de l'inférence comme l'élagage des experts sous-utilisés peuvent aider à maximiser le débit.

Utilisation du Mélange d'Experts par GPT-4

GPT-4 utilise une architecture de Mélange d'Experts (MoE) avec un total de 16 experts. Lors de chaque génération de tokens, l'algorithme de routage sélectionne 2 des 16 experts pour traiter l'entrée et produire la sortie.

Cela offre deux avantages clés :

**Mise à l'échelle ** — Avec 16 experts distincts qui peuvent être formés en parallèle, GPT-4 peut passer à des tailles beaucoup plus grandes que les architectures de transformateurs denses précédentes.
**Spécialisation ** — Chaque expert peut se spécialiser sur des types particuliers d'entrées ou de tâches, améliorant ainsi la précision globale. L'algorithme de routage apprend à sélectionner les experts qui se comporteront le mieux pour chaque entrée.

Cependant, le routage dynamique de l'architecture MoE de GPT-4 introduit également des défis :

**Taille de lot variable ** — Comme différents experts sont choisis par token, la taille du lot varie de manière imprévisible pour chaque expert. Cela conduit à une latence incohérente et à une utilisation plus faible.
**Surcharge de communication ** — Le routage des entrées vers différents experts nécessite une communication supplémentaire entre les GPU/nœuds, augmentant la surcharge.
**Bande passante mémoire ** — Plus d'experts signifie que la bande passante mémoire est une contrainte, limitant le nombre total d'experts.

Pour optimiser le MoE de GPT-4 :

L'élagage peut supprimer les experts sous-utilisés pour maximiser le débit.
Un placement soigné des experts minimise la communication entre les nœuds.
Les algorithmes à faible bande passante comme le gating Top-2 réduisent le trafic mémoire.

MoE permet à GPT-4 de monter en taille et en spécialisation du modèle, au prix de défis de routage qui doivent être résolus par des techniques d'optimisation de l'inférence.

Klu is remote-first and global

Follow us

Qu'est-ce que le Mélange d'Experts?