Mamba et AI factories: nouvelles infrastructures et architectures de réseaux de neurones
par DragonLLM
Face aux limites des Transformers en termes de complexité, de latence et de passage à l’échelle sur de longues séquences, de nouvelles architectures émergent et viennent sérieusement challenger leur hégémonie.
Ce retour d’expérience propose de présenter les dernières améliorations en termes d’architecture dans les LLMs ainsi que les moyens mis à disposition par l’Europe pour les entreprises dans le but d’entrainer des modèles sur le nouveau dispositif d’AI factories.
State Space Models (SSMs), Mamba, GDN
Cadre théorique et pratique pour modéliser des dépendances longues dans les données séquentielles, offrant une alternative scalable aux Transformers grâce à une complexité maîtrisée et une meilleure efficacité mémoire.
- L’entrainement d’un modèle de fondation 3.6B sur 4.5T de tokens avec une architecture hybride sur un millier de GPU en parallèle sur un super calculateur européen.
- Présentation et retour d’expérience sur les AI factories, le tout nouveau dispositif européen pour permettre aux entreprises d’entrainer leur modèle d’IA sur des HPCs Européens.
Jean-Gabriel Barthélémy et Alexandre Torres–Leguet, ingénieurs en IA chez DragonLLM, nous exposeront les enjeux liés à l’émergence de ces nouvelles architectures et illustreront les performances que l’on peut légitimement attendre de ce changement de paradigme.
datacraft* est le club des Data Scientists, Chercheurs et Ingénieurs en IA. Rejoignez-nous !
