Expert Cybersécurité & IAv9.0
Besoin d'un accompagnement expert ?
Devis personnalisé sous 24h — audit, conformité, incident
Checklists Sécurité — Audit & Durcissement
Formats disponibles
📄 PDF 📊 Excel 🌐 Web

11 checklists professionnelles couvrant 2 200+ points de contrôle. Téléchargement gratuit, aucune inscription.

RLHF (Reinforcement Learning from Human Feedback)

ia

Définition

Le RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLM sur les préférences humaines, combinant le fine-tuning supervisé, l'entraînement d'un modèle de récompense et l'optimisation par renforcement (PPO). Le processus se déroule en trois phases : collecte de démonstrations humaines pour un SFT initial, entraînement d'un reward model sur des comparaisons de réponses notées par des annotateurs humains, puis optimisation du LLM pour maximiser ce reward via PPO (Proximal Policy Optimization) tout en pénalisant la divergence avec le modèle SFT (régularisation KL). Les variantes incluent DPO (Direct Preference Optimization, plus stable et sans PPO), RLAIF (AI Feedback remplaçant partiellement l'humain) et Constitutional AI (Anthropic). Le RLHF est la principale technique derrière l'alignement de GPT-4, Claude et Gemini. En sécurité, un reward model mal calibré peut induire des comportements indésirables (reward hacking) ou affaiblir certaines défenses contre le jailbreaking.

Description

Le RLHF (Reinforcement Learning from Human Feedback) est la technique d'alignement des LLM sur les préférences humaines. Elle combine le fine-tuning supervisé initial, l'entraînement d'un modèle de récompense sur des comparaisons humaines, et l'optimisation par renforcement (PPO) pour maximiser ce reward.

Fonctionnement

Le processus en 3 phases : SFT (Supervised Fine-Tuning), entraînement du reward model sur des préférences annotées, puis optimisation PPO du LLM pour maximiser le reward tout en maintenant la régularisation KL avec le modèle SFT. Les variantes DPO et RLAIF simplifiient ce processus.

Points clés

  • Base de l'alignement de GPT-4, Claude et Gemini : indispensable pour passer d'un modèle completion à un assistant
  • Un reward model mal calibré induit du reward hacking (l'agent optimise le proxy au lieu de l'objectif réel)
  • DPO (Direct Preference Optimization) remplace avantageusement PPO dans de nombreuses implémentations récentes

Besoin d'un expert sur ce sujet ?

Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.

Demander un devis

Un projet cybersécurité ?

Expert dispo · Réponse 24h

Devis