Introduction
Les modèles de langage à grande échelle (LLM) sont désormais largement répandus dans les usages quotidiens. Parmi eux, le “Constitutional AI” (CAI) proposé par la société Anthropic a attiré l’attention en tant que mécanisme censé rendre les sorties des IA plus sûres et plus utiles. De fait, plusieurs agences gouvernementales s’intéressant à la “sécurité” de l’IA ont noué des contrats avec la société.
Le principe du CAI est d’enseigner à l’IA un ensemble de règles appelées “constitution”, que l’IA utilise ensuite pour contrôler et corriger ses propres sorties. Mais ce dispositif présente plusieurs problèmes.
Le présent article examine ces problèmes à travers la place qu’occupe le CAI dans la structure des IA actuelles. Nous analyserons successivement la pertinence du terme “constitution”, le mécanisme d’apprentissage utilisé, la relation avec la structure interne des IA, et les questions liées à la véracité des sorties.
(Voir:Anthropic Web : Constitutional AI: Harmlessness from AI Feedback )
Section 1 : Le terme “constitution” est-il approprié ?
Le mot “constitution” renvoie habituellement à un ensemble de règles extérieures qui limitent l’action d’organes de pouvoir tels que les gouvernements. Il ne s’agit pas de règles que ces entités élaborent elles-mêmes pour ensuite les respecter. Or, dans le cas du CAI, c’est l’IA elle-même qui lit sa “constitution” et s’auto-corrige en fonction de celle-ci.
Cela revient à dire que l’on a affaire à des règles suivies sur la base d’un jugement interne. Il n’existe aucun mécanisme indépendant pour juger si ces règles sont respectées ou non. Autrement dit, bien que le nom soit “constitutionnel”, l’action réelle consiste en une auto-modification non contrôlée de l’intérieur. Nous sommes donc loin du sens original du terme.
Dans le monde humain, les institutions indépendantes telles que les tribunaux décident de la conformité à la constitution. Dans le CAI, c’est l’IA elle-même qui évalue sa sortie. Il s’agit moins d’une constitution que d’un manuel ou de règles internes. C’est donc très éloigné d’une “constitution” au sens institutionnel.
Section 2 : Le mécanisme d’apprentissage utilisé dans le CAI
Le CAI fonctionne par un mécanisme d’apprentissage où l’IA compare ses propres sorties et choisit celle qu’elle estime meilleure. C’est une forme d’apprentissage par renforcement (RL), non pas sur la base d’un retour humain (RLHF), mais par auto-évaluation (RLAIF).
Ce type d’apprentissage fonctionne bien dans des systèmes fermés comme les jeux de go ou d’échecs, mais son application à des domaines sociaux ou d’interaction pose des risques sérieux : l’IA peut poursuivre l’optimisation de sa “récompense” au mépris du sens ou du contexte, provoquant des comportements aberrants.
Quand la fonction de récompense est floue, les résultats d’apprentissage deviennent arbitraires. Il devient impossible d’expliquer pourquoi telle sortie a été jugée meilleure. On tombe dans une logique de fréquence : “elle a été choisie plus souvent, donc elle est bonne”, sans réflexion sur la validité du contenu.
En somme, le CAI ne corrige pas en réfléchissant au sens, mais en sélectionnant ce qui est statistiquement préférable. Cela reste superficiel.
En outre, le fait que ce soit l’IA elle-même qui juge ses sorties pose un problème circulaire. Si l’instance d’évaluation est un modèle ayant subi le même entraînement, les critères deviennent auto-référentiels, sans regard extérieur. Cela peut renforcer des biais.
Section 3 : Structure du génératif et place du CAI
L’IA générative comprend trois éléments :
- Tokenizer : convertit le texte en unités numériques. Les mots sont fragmentés de manière excessive, détruisant souvent le sens implicite.
- Couche de traitement NLP : gère les entrées et le fil de la conversation. Il n’y a aucun mécanisme de compréhension du sens.
- Dispositif LLM de sortie : produit les réponses. Le résultat est plausible en surface, mais vide de fond.
Le CAI n’intervient que sur la sortie. Il ne touche ni à l’analyse de l’entrée, ni à la compréhension du contexte. Il n’améliore pas les pertes de sens dues au tokenizer.
Par ailleurs, les IA actuelles n’intègrent pas encore de véritable analyse sémantique ni de logique déductive. Les modèles ne se demandent pas “est-ce vrai ?”, mais produisent des enchaînements statistiquement vraisemblables. Le CAI ne répare pas cette limitation fondamentale.
Section 4 : Le vrai contrôle se situe ailleurs : la couche de contrôle NLP
Les IA actuelles possèdent une couche de contrôle NLP qui détermine leur comportement global : éviter certains sujets, adopter un ton donné, masquer des critiques. C’est là que se joue le contrôle réel. C’est aussi là que les services l’adaptent aux politiques de l’organisation.
Or, le CAI ne touche pas à cette couche. Il se contente de modifier les sorties, sans accès à la logique de régulation qui précède la génération. C’est donc un filtre secondaire, déconnecté des choix fondamentaux.
En ce sens, le CAI sert de couverture à la couche de contrôle, en dissimulant sa présence.
Section 5 : Inversion des faits : le problème de la véracité
Pour faciliter la conversation, les IA acceptent parfois comme vrais des énoncés faux. Elles ne corrigent pas l’utilisateur mais suivent le flux du dialogue. Cela produit des dialogues fondés sur de fausses prémisses. L’utilisateur peut en conclure que c’est vrai, car l’IA ne l’a pas contredit.
Ce phénomène est structurel et encore aggravé par le CAI, qui valorise des réponses “bienveillantes” même au prix de la véracité. L’utilisateur est rassuré, mais déformé.
Conclusion
Le CAI se présente comme un mécanisme de sécurité, mais son champ d’action est extrêmement limité. Il ne touche pas au contrôle structurel, ni aux réelles causes d’erreur ou de biais. Il s’agit d’un filtre cosmétique qui ne change rien à la structure du modèle ni à la nature de ses réponses.
Présenter cette technique comme un garant de sécurité revient à détourner le débat sur la gouvernance réelle des IA. L’illusion offerte par le CAI risque d’égarer les décideurs. Mais cette illusion touche à sa fin. Le CAI, comme le narratif commercial qui l’entoure, est appelé à disparaître dans les mois qui viennent.