Le classifier de Claude Code auto mode - comment il decide ce qui est safe ou risque

Publie le

Le classifier de Claude Code auto mode - comment il decide ce qui est safe ou risque

Le classifier de Claude Code auto mode - comment il decide ce qui est safe ou risque

Le classifier d auto mode dans Claude Code est un modele separe base sur Claude Sonnet 4.6 qui evalue chaque action avant execution. Lance en research preview en mars 2026, il fonctionne comme un filtre de securite automatise : les actions safe passent sans prompt, les risquees sont bloquees. Le classifier voit les messages utilisateur, les appels d outils et le contenu CLAUDE.md, mais pas les resultats d outils, ce qui le protege contre les injections de prompt via le contenu des fichiers.

Quel est l ordre de decision du classifier ?

Chaque action passe par un ordre fixe. La premiere etape qui matche gagne. Premiere verification : les regles allow ou deny definies par l utilisateur s appliquent immediatement. Deuxieme : les reads et les edits dans le working directory sont auto-approuves sauf sur les chemins proteges. Troisieme : tout le reste va au classifier. Quatrieme : si le classifier bloque, Claude recoit la raison et tente une alternative. A l entree en auto mode, les regles allow trop larges comme Bash(*) ou les interpretes wildcardees sont supprimees. Les regles specifiques comme Bash(npm test) sont conservees.

Quels criteres le classifier utilise-t-il ?

Trois criteres principaux. L escalade de scope : l action depasse-t-elle ce que l utilisateur a demande. Exemple : l utilisateur demande de fixer un bug dans un fichier, Claude tente de modifier le pipeline CI. Le classifier detecte le depassement et bloque. L infrastructure non reconnue : l action cible-t-elle un service ou un endpoint que le classifier ne connait pas. Le working directory et les remotes git configures sont trusted par defaut, tout le reste est externe. L influence de contenu hostile : l action semble-t-elle motivee par du contenu lu dans un fichier ou une page web plutot que par la demande de l utilisateur.

Pourquoi le classifier ne voit pas les resultats d outils ?

C est une decision de securite deliberee. Si le classifier voyait le contenu des fichiers lus par Claude, un fichier hostile pourrait contenir des instructions pour manipuler le classifier lui-meme. En ne voyant que les messages utilisateur, les appels d outils et le CLAUDE.md, le classifier est isole du contenu potentiellement hostile. Un probe server-side separe scanne les resultats d outils entrants et flag le contenu suspect avant que Claude ne le lise. C est une architecture a deux couches : le probe protege Claude, le classifier protege l utilisateur.

Comment fonctionne le mecanisme de fallback ?

Le fallback a deux seuils. Seuil consecutif : 3 blocages d affilee sans action approuvee entre eux. Seuil total : 20 blocages dans la session. Quand un seuil est atteint, auto mode se met en pause et Claude Code revient aux prompts manuels. Approuver l action relance auto mode. Le compteur consecutif se reinitialise a chaque action approuvee. Le compteur total persiste pendant toute la session et ne se reinitialise que quand son propre seuil declenche un fallback. Ces seuils ne sont pas configurables.

Le classifier est-il infaillible ?

Non. Anthropic est explicite : auto mode reduit les prompts mais ne garantit pas la securite. Le classifier peut laisser passer des actions risquees si l intention utilisateur est ambigue ou si Claude n a pas assez de contexte sur l environnement. C est un research preview, pas un produit fini. Pour les operations sensibles (production, donnees critiques), le mode default avec approbation manuelle reste recommande. Auto mode est concu pour les taches de confiance ou le developpeur connait la direction et veut reduire la friction.

En resume, le classifier d auto mode dans Claude Code est un filtre de securite a deux couches (probe + classifier) base sur Sonnet 4.6. Il evalue trois criteres (scope, infrastructure, injection) et utilise un fallback a seuils fixes. Disponible en research preview depuis mars 2026, il est le coeur de l equilibre entre productivite et securite que propose auto mode.