RLHF (Reinforcement Learning from Human Feedback)
iaDéfinition
Le RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLM sur les préférences humaines, combinant le fine-tuning supervisé, l'entraînement d'un modèle de récompense et l'optimisation par renforcement (PPO). Le processus se déroule en trois phases : collecte de démonstrations humaines pour un SFT initial, entraînement d'un reward model sur des comparaisons de réponses notées par des annotateurs humains, puis optimisation du LLM pour maximiser ce reward via PPO (Proximal Policy Optimization) tout en pénalisant la divergence avec le modèle SFT (régularisation KL). Les variantes incluent DPO (Direct Preference Optimization, plus stable et sans PPO), RLAIF (AI Feedback remplaçant partiellement l'humain) et Constitutional AI (Anthropic). Le RLHF est la principale technique derrière l'alignement de GPT-4, Claude et Gemini. En sécurité, un reward model mal calibré peut induire des comportements indésirables (reward hacking) ou affaiblir certaines défenses contre le jailbreaking.
Description
Le RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLM sur les préférences humaines. Elle combine le fine-tuning supervisé initial, l'entraînement d'un modèle de récompense sur des comparaisons humaines, et l'optimisation par renforcement (PPO) pour maximiser ce reward.
Fonctionnement
Le processus en 3 phases : SFT (Supervised Fine-Tuning), entraînement du reward model sur des préférences annotées, puis optimisation PPO du LLM pour maximiser le reward tout en maintenant la régularisation KL avec le modèle SFT. Les variantes DPO et RLAIF simplifiient ce processus.
Points clés
- Base de l'alignement de GPT-4, Claude et Gemini : indispensable pour passer d'un modèle completion à un assistant
- Un reward model mal calibré induit du reward hacking (l'agent optimise le proxy au lieu de l'objectif réel)
- DPO (Direct Preference Optimization) remplace avantageusement PPO dans de nombreuses implémentations récentes
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis