
Le Paradoxe du Tagging LLM : Pourquoi la Classification Multi-Label est Plus Difficile qu'il n'y Paraît
Le Paradoxe du Tagging LLM : Pourquoi la Classification Multi-Label est Plus Difficile qu'il n'y Paraît
Les mauvais tags sont un tueur silencieux. Dans un moteur de recommandation, un index de recherche ou un pipeline de contenu, un tag erroné envoie les utilisateurs au mauvais endroit, fait remonter des résultats non pertinents et érode la confiance au fil du temps. Le coût business est réel, et il s'accumule. Alors quand les LLMs ont promis d'automatiser le tagging automatique à grande échelle, ça semblait être un problème résolu. Ce n'est pas le cas.
Ce défi dépasse largement les restaurants. La catégorisation automatique de catalogues produits, le routage de tickets support, la classification de documents contractuels ou l'annotation de données industrielles se heurtent exactement aux mêmes obstacles. La classification multi-label en zéro-shot avec un LLM est l'un des cas d'usage NLP les plus courants en entreprise — et l'un des plus mal compris.
Si vous avez déjà essayé d'utiliser un LLM pour catégoriser des données, vous avez probablement pensé que ce serait simple. On donne un texte à l'IA, on lui fournit une liste de tags, on lui demande de choisir ceux qui correspondent. Facile.
Récemment, j'ai dû construire un système pour classifier des restaurants avec plusieurs tags de cuisine simultanément : français, italien, grec, etc. Ce qui semblait être un prompt simple s'est rapidement transformé en une leçon fascinante sur la psychologie de l'IA.
Voici ce qui se passe quand on demande à un LLM de gérer plusieurs tâches à la fois, et pourquoi il oscille entre forcer de mauvaises réponses et refuser de répondre du tout.
Phase 1 : L'IA Force une Correspondance (Le Biais du "Moins Mauvais")
Dans ma première itération, j'ai donné à l'IA une description de restaurant et une liste de 7 tags de cuisine, en lui demandant d'appliquer tous ceux qui correspondaient.
Le problème immédiat ? L'IA souffrait de ce que j'appelle le biais du "moins mauvais". Si un restaurant est un burger américain moderne sans aucun rapport avec les tags fournis, l'IA essaiera quand même de forcer une correspondance. Elle pourrait le taguer "Britannique" parce qu'ils servent des frites, ou "Allemand" parce qu'il y a une saucisse au menu.
Pourquoi cela arrive-t-il ? Les LLMs sont fondamentalement des moteurs de complétion conçus pour satisfaire.[¹,²] Quand on donne à une IA une liste à choix multiples, son hypothèse par défaut est que la réponse doit se trouver dans la liste.[²] Sans "porte de sortie" explicite, l'IA regardera vos tags et pensera :
"Aucun n'est vraiment bon, mais 'Italien' est le moins mauvais. Je vais choisir ça."
Phase 2 : L'IA Se Bloque (Le Problème de la Sur-Rigueur)
Pour corriger les tags hallucinés, j'ai mis à jour le prompt. Je l'ai rendu strict. J'ai ajouté des instructions comme : "N'applique un tag QUE si tu es sûr à 100%. Si aucun ne s'applique, ne retourne RIEN."
Ça a fonctionné... un peu trop bien. Soudainement, l'IA est devenue incroyablement avare avec ses tags.[³] Ce mode d'échec n'est pas propre aux données culinaires : il est documenté dans des contextes de classification industrielle — catégorisation de pièces détachées, de défauts qualité, de signaux de capteurs — où la précision des labels est critique et où le zéro-shot LLM tombe dans la même sur-rigueur. En fait, elle est devenue bien plus stricte que lorsque je lui demandais d'évaluer les tags un par un dans des prompts isolés (ex. : "Est-ce que c'est français ? Oui/Non").
Un restaurant servant clairement de la cuisine méditerranéenne s'est retrouvé sans aucun tag.
La Cause Profonde : La Sur-Analyse des Traits Partagés
Quand on demande à une IA d'évaluer un tag à la fois, elle travaille en isolation. Elle voit un menu avec du fromage feta et des olives et dit avec confiance : "Oui, c'est grec."
Mais quand on lui montre tous les tags en même temps (grec, turc, libanais, méditerranéen), elle commence à sur-analyser les frontières entre eux.[⁴]
Elle voit les ingrédients et hésite :
"Attendez, le tzatziki est grec, mais une recette similaire est aussi utilisée dans les salades libanaises. Je vois aussi de l'huile d'olive, qu'on trouve dans les plats italiens. De plus, il n'y a pas de feta, qui est pourtant courante dans la cuisine grecque."
En voyant toutes les options côte à côte, l'IA réalise que les caractéristiques sont partagées entre les catégories. Comme elle ne peut pas isoler définitivement la cuisine à une seule sans chevaucher les autres, et que le prompt lui demandait d'être stricte, elle choisit la paralysie : elle ne sélectionne rien.
Comment Corriger Ça : 4 Règles pour le Prompting Multi-Label
Si vous construisez un système de tagging automatisé, voici comment équilibrer la balance pour que l'IA soit précise sans être paralysée.
1. Fournir une Catégorie "Aucun" Explicite
Ne dites pas simplement à l'IA de ne rien retourner. Incluez réellement des tags comme Aucune_Correspondance ou Autre. Cela donne au LLM un "seau" définitif où mettre les données qui ne correspondent pas, satisfaisant son envie de répondre sans forcer une mauvaise correspondance.
2. Définir le Seuil d'Inclusion
Au lieu de simplement dire "soyez strict", fournissez des définitions claires pour chaque tag et expliquez ce qui constitue une correspondance.[⁵]
"Appliquez le tag 'Italien' si l'identité principale du restaurant, son nom ou ses plats principaux sont italiens. Ne l'appliquez pas simplement parce qu'ils servent un seul plat de pâtes en accompagnement."
3. Utiliser le Chain-of-Thought (CoT)
Forcez l'IA à expliquer son raisonnement avant de produire les tags finaux.[⁶] Demandez-lui de lister les arguments pour et contre un tag avant de le labelliser Oui/Non.[⁸] Quand l'IA doit écrire :
"Ce menu propose des tacos et des margaritas. Donc, mexicain."
...elle ancre sa décision finale dans la logique plutôt que dans la conjecture.
4. Diviser pour Mieux Régner
Si vous avez 50 tags, ne les jetez pas tous en même temps sur l'IA dans des hiérarchies plates. Regroupez-les.[⁹,¹⁰] Demandez d'abord :
"Est-ce asiatique, européen ou latino-américain ?"
Puis, dans un prompt séquentiel séparé une fois le premier terminé :
"Vous avez classifié ceci comme européen. Est-ce français, italien ou espagnol ?"
Cela réduit considérablement la surface d'ambiguïté à chaque étape.
La Conclusion
La classification multi-label avec les LLMs est un exercice d'équilibre. Il faut sauver l'IA de son propre désir d'être utile, tout en l'empêchant de sur-analyser les chevauchements. Que vous travailliez sur de la classification de texte, du tagging de contenu, de la catégorisation de produits ou de l'annotation automatique pour des pipelines de données d'entreprise, les mêmes quatre règles s'appliquent.
Donnez-lui des frontières claires, une façon explicite de se désengager, et de l'espace pour "réfléchir" à voix haute. Le résultat est un système de tagging à la fois précis et robuste : qui sait quand s'engager et quand dire "aucune des réponses ci-dessus".
Si vous vous débattez avec un problème de classification ou de tagging, parlons-en.
Réserver un créneau gratuit →
Sources
Phase 1 — Le Biais du "Moins Mauvais" & la Servilité des LLMs
¹ Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., ... & Perez, E. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548. arxiv.org/abs/2310.13548 — Étude fondatrice caractérisant le comportement servile des LLMs, montrant que les modèles favorisent systématiquement les réponses alignées avec les préférences perçues de l'utilisateur plutôt que la vérité.
² Zheng, C. et al. (2023). Large Language Models Are Not Robust Multiple Choice Selectors. ICLR 2024. openreview.net — Démontre empiriquement que les LLMs présentent un "biais de sélection" inhérent dans les tâches à choix multiples, préférant certaines positions d'options indépendamment du contenu.
Phase 2 — Sur-Analyse & Paralysie avec des Catégories qui se Chevauchent
³ Senger, M. et al. (2025). Language Models to Support Multi-Label Classification of Industrial Data. arxiv.org/abs/2504.15922 — Documente le même mode d'échec de sur-rigueur dans un contexte réel de classification multi-label industrielle en zero-shot.
⁴ Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2024). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics, 12, 157–173. arxiv.org/abs/2307.03172 — Montre que les LLMs peinent à utiliser les informations présentées au milieu de longs contextes, pertinent pour expliquer pourquoi présenter de nombreux tags simultanément dégrade la qualité de classification.
⁵ Heseltine, M. & Luzardo, A. (2026). Improving LLM Classification of Social Science Texts Through Prompt Engineering. arxiv.org/abs/2603.25422 — Teste systématiquement les descriptions de labels et les instructions sur la précision de classification, directement pertinent pour la règle "définir le seuil d'inclusion".
La Correction par Chain-of-Thought
⁶ Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022, 35, 24824–24837. arxiv.org/abs/2201.11903 — L'article fondateur sur le CoT, montrant que demander aux modèles de raisonner étape par étape améliore significativement les performances sur les tâches complexes.
⁷ Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., ... & Chi, E. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv:2205.10625. arxiv.org/abs/2205.10625 — Introduit la décomposition d'un problème complexe en sous-problèmes plus simples résolus séquentiellement, fondement direct de la stratégie "Diviser pour Mieux Régner".
⁸ Sprague, Z. et al. (2024). To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning. arxiv.org/abs/2409.12183 — Suite nuancée montrant que les bénéfices du CoT sont les plus forts sur les tâches nécessitant de la logique et de la désambiguïsation : exactement le problème de chevauchement multi-label.
La Correction par Division Hiérarchique
⁹ Lim, J. et al. (2025). Hierarchical Text Classification Using Black Box Large Language Models. arxiv.org/abs/2508.04219 — Démontre empiriquement qu'une stratégie hiérarchique "diviser pour mieux régner" surpasse la classification plate avec les LLMs, surtout sur les taxonomies profondes.
¹⁰ Schindler, A. et al. (2026). Automated coding of communication data using large language models: a comparison of hierarchical and direct prompting strategies. Frontiers in Education. frontiersin.org — Compare les stratégies de prompting hiérarchique vs. direct sur une tâche de classification réelle ; confirme que le hiérarchique est globalement meilleur mais plus sensible aux erreurs au niveau supérieur.