Reinforcement Learning
iaDéfinition
Apprentissage par renforcement où un agent apprend par essais/erreurs en interagissant avec un environnement, maximisant une récompense cumulative. Base de l'entraînement RLHF des LLMs.
Description
Le Reinforcement Learning (apprentissage par renforcement) est un paradigme d'apprentissage où un agent apprend par essais et erreurs en interagissant avec un environnement, maximisant une récompense cumulative. Il constitue la base du RLHF utilisé pour l'alignement des LLM modernes.
Fonctionnement
L'agent observe l'état de l'environnement, exécute une action, reçoit une récompense et passe à l'état suivant. Des algorithmes comme PPO, SAC et DQN optimisent la politique de l'agent pour maximiser les récompenses à long terme. Dans le RLHF, le reward model entraîné sur des préférences humaines guide l'optimisation.
Points clés
- Le reward hacking survient quand l'agent optimise une proxy de la récompense sans atteindre l'objectif réel visé
- PPO (Proximal Policy Optimization) est l'algorithme dominant pour le RLHF des LLM (GPT-4, Claude)
- Le DRL (Deep RL) combine RL et réseaux de neurones profonds pour des espaces d'états continus et complexes
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis