Construire des grands modeles de langage a partir de zero — PyTorch & CUDA (342 pages)

Telechargez gratuitement le guide francophone complet pour construire un LLM de zero avec PyTorch : tokenizer BPE, RMSNorm, RoPE, GQA, MoE, SwiGLU, RLHF, kernels CUDA. 342 pages.

Ayi NEDJIMI

Expert Cybersécurité & IA

min lecture

PDF offert

Français

L'ouvrage Construire des grands modèles de langage à partir de zéro est le guide technique francophone de référence pour comprendre, implémenter et entraîner un LLM (Large Language Model) complet — du tokenizer BPE à l'inférence en production. Rédigé par Ayi NEDJIMI, expert en cybersécurité et intelligence artificielle avec plus de 25 ans d'expérience terrain, ce livre vous guide pas à pas dans la construction d'un grand modèle de langage avec PyTorch, en couvrant les architectures modernes : mécanismes d'attention RoPE, Grouped Query Attention (GQA), fenêtre glissante, Mixture of Experts, SwiGLU, RMSNorm et kernels CUDA personnalisés. Avec 342 pages de code commenté, de schémas mathématiques et de retours d'expérience, cet ouvrage s'adresse aux développeurs, ingénieurs ML et chercheurs qui veulent comprendre les LLM de l'intérieur et non plus les utiliser comme boîtes noires.

Ce que vous apprendrez

Fondations des LLM et mecanismes d attention

Comprenez ce qu est reellement un grand modele de langage, ses fondements mathematiques, le mecanisme d attention (self-attention, multi-head attention, attention causale), et pourquoi l architecture Transformer a revolutionne le traitement du langage naturel. Chaque concept est illustre par du code Python concret des le premier chapitre.

Construction d un tokenizer BPE from scratch

Implementez un tokenizer par encodage par paires d octets (Byte Pair Encoding) complet : algorithme d apprentissage des fusions, encodage, decodage, gestion des tokens speciaux. Vous comprendrez pourquoi GPT-2 et ses successeurs utilisent BPE et comment le re-implementer integralement en Python pur, sans dependance externe.

RMSNorm, Rotary Positional Embeddings et configuration du modele

Maitrisez les composants de normalisation modernes (RMSNorm vs LayerNorm), les encodages positionnels rotatifs (RoPE) avec leurs extensions NTK et YaRN pour la generalisation a de longues sequences, et la configuration complete d un LLM via ses hyperparametres architecturaux.

Scaled Dot-Product Attention et AttentionBlock avance

Implementez le mecanisme d attention produit scalaire mis a l echelle (SDPA) avec tous ses masques (padding, causal, sparse, adaptatif). Construisez un AttentionBlock complet integrant Grouped Query Attention (GQA), fenetres glissantes et sink tokens — les composants qui permettent a LLaMA 3 et Mistral de traiter des contextes de 128 000 tokens.

Mixture of Experts et SwiGLU

Explorez les blocs MLP avances : fonction d activation SwiGLU, architecture Mixture of Experts (MoE) avec routage top-k et equilibrage de charge. Comprenez comment Mixtral et DeepSeek activent selectivement leurs experts pour maximiser la capacite tout en maitrisant le cout de calcul.

Assemblage du modele complet, entrainement et inference

Assemblez le TransformerBlock et le modele complet, configurez la boucle d entrainement avec Adam, planification du taux d apprentissage, gradient checkpointing et sauvegarde de checkpoints. Entrainez le modele sur TinyStories, Shakespeare et OpenWebText, puis deployez l inference avec TokenGenerator et ses garde-fous anti-repetition.

Entrainement avance, RLHF, CUDA et post-entrainement

Couvrez le pipeline complet de post-entrainement : SFT (Supervised Fine-Tuning), RLHF, DPO, IA constitutionnelle. Plongez dans les kernels CUDA personnalises (coalescence memoire, Tensor Cores, FlashAttention) pour optimiser les performances GPU jusqu a l entrainement multi-GPU distribue.

Pour qui est ce livre ?

Developpeurs Python — qui veulent comprendre les LLM de l interieur et ne plus les utiliser comme boites noires
Ingenieurs en apprentissage automatique — qui souhaitent implementer ou affiner des architectures Transformer modernes
Chercheurs et doctorants — qui ont besoin d une reference francophone complete sur l architecture des LLM contemporains
Etudiants avances — en master IA, data science ou informatique, avec des bases en Python et en apprentissage profond
Data Scientists — qui veulent passer du stade utilisateur au stade architecte de modeles de langage

Caracteristiques

Detail	Valeur
Pages	342
Langue	Francais
Format	PDF
Prix	Gratuit — Version PDF offerte
Technologies	PyTorch, CUDA, NumPy, Matplotlib, Jupyter
Auteur	Ayi NEDJIMI
Date de publication	2026
ISBN	978-2-9580154-1-1

A retenir : A la fin de cet ouvrage, vous disposerez d un modele de langage fonctionnel, entierement compris et construit de vos mains — du tokenizer a l inference en passant par les kernels CUDA. Aucune inscription requise pour telecharger le PDF.

Sommaire

Qu est-ce qu un grand modele de langage ? Premiers pas (Python, PyTorch, CUDA, NumPy)
Concepts fondamentaux du developpement de LLM (Transformer, attention, RLHF, RoPE)
Construire un tokenizer pour l architecture Transformer (BPE complet, encode, decode)
Normalisation RMS et configuration du modele (RMSNorm, SwiGLU, hyperparametres)
Rotary Positional Embeddings : NTK et YaRN (RoPE, extensions longue sequence)
Scaled Dot-Product Attention : le coeur des Transformers (SDPA, masques, attention sparse)
AttentionBlock : RoPE, GQA, fenetre glissante et sink tokens
Bloc MLP avec Mixture of Experts et SwiGLU
Bloc Transformer et modele complet (TransformerBlock, from_checkpoint)
Preparation des donnees, entrainement et inference (TinyStories, TokenGenerator, RLHF)
Entrainement avance et kernels CUDA (SFT, DPO, FlashAttention, multi-GPU)
Annexe : Glossaire des termes

FAQ

Ce livre est-il vraiment gratuit ?

Oui, la version PDF est offerte en telechargement libre, sans inscription ni contrepartie. C est une contribution a la communaute francophone de l intelligence artificielle et du machine learning.

Quel niveau est requis pour lire ce livre ?

Une connaissance prealable de Python et des bases de l apprentissage profond facilite la lecture, sans etre strictement indispensable. Chaque concept mathematique est explique et illustre par du code. Des notions de calcul tensoriel (NumPy) et de reseau de neurones (PyTorch) sont recommandees a partir du chapitre 4.

Ce livre couvre-t-il les modeles recents comme LLaMA 3 ou Mistral ?

Oui. L architecture implementee integre tous les composants des LLM modernes de 2025 : RoPE avec NTK et YaRN, Grouped Query Attention, fenetre glissante, Mixture of Experts, SwiGLU — les memes briques que LLaMA 3, Mistral et DeepSeek. La reference aux modeles de l etat de l art (mai 2025) est explicite tout au long du livre.

Peut-on vraiment entrainer un LLM depuis ce livre ?

Oui. Le chapitre 10 detaille le pipeline complet d entrainement sur TinyStories et OpenWebText, avec le code source complet de la boucle d entrainement, de la gestion des checkpoints et de la generation de texte. Le chapitre 11 couvre les kernels CUDA personnalises pour optimiser l entrainement sur GPU.

Quelle configuration materielle est necessaire ?

La plupart des exercices peuvent etre executes sur un ordinateur standard avec 16 Go de RAM. Pour l entrainement complet (chapitre 10), un GPU NVIDIA avec 8 Go de VRAM est recommande. Les kernels CUDA du chapitre 11 necessitent un GPU NVIDIA compatible CUDA (compute capability >= 7.0). Google Colab ou Kaggle Kernels (GPU gratuit) suffisent pour la quasi-totalite des exemples.

L architecture Transformer moderne : ce qui a change depuis 2017

Le Transformer original de Vaswani et al. (2017) a ete profondement remanie dans les LLM de 2025. Les evolutions majeures couvertes dans ce livre :

RMSNorm remplace LayerNorm pour une stabilisation plus efficace de l entrainement
Rotary Positional Embeddings (RoPE) remplacent les encodages positionnels appris ou sinusoidaux, permettant une meilleure generalisation aux sequences longues via NTK et YaRN
Grouped Query Attention (GQA) reduit la memoire KV-cache en partageant les tetes key/value entre plusieurs tetes query, permettant un ratio de compression 4x a 8x
SwiGLU remplace ReLU dans les blocs FFN pour une meilleure expressivite et des gradients plus stables
Mixture of Experts (MoE) permet de scaler la capacite du modele sans augmenter le cout de calcul par token en n activant qu une fraction des parametres a chaque passe avant