Constitutional AI
iaDéfinition
Approche Anthropic d'alignement des LLM via un ensemble de principes éthiques et règles permettant au modèle de s'autocritiquer et d'affiner ses réponses pour rester inoffensif.
Description
Le Constitutional AI est l'approche d'Anthropic pour aligner les LLM via un ensemble de principes éthiques formalisés. Le modèle est entraîné à s'autocritiquer selon ces principes constitutionnels et à affiner ses réponses pour maximiser leur utilité tout en minimisant les contenus nuisibles.
Fonctionnement
Le processus combine le RLAIF (IA Feedback) avec une constitution de principes : le modèle génère une réponse, l'évalue contre les principes constitutionnels, propose une révision, et ce feedback synthétique entraîne le reward model. Cela réduit la dépendance aux annotateurs humains pour les comportements nuisibles.
Points clés
- La constitution d'Anthropic inclut des principes de la Déclaration universelle des droits de l'homme
- Réduit de 95% les réponses nuisibles par rapport au SFT seul selon les évaluations internes d'Anthropic
- Alternative scalable au RLHF pur qui souffre de la rareté et du coût des annotations humaines
Besoin d'un expert sur ce sujet ?
Audit, pentest, conformité ISO 27001, développement IA sécurisé — demandez un devis gratuit.
Demander un devis