Victor Journoud

Co-Founder & Partner

De la supposition à la vérité de référence

TL;DR
L’étude d’OpenAI soutient que la culture actuelle de l’entraînement et de l’évaluation récompense les modèles qui devinent au lieu d’admettre leur incertitude. Comme les classements se concentrent uniquement sur la justesse, les modèles apprennent à bluffer, ce qui se traduit par des réponses erronées mais confiantes.

La solution n’est pas un nouveau benchmark, mais un changement de méthode d’évaluation : pénaliser davantage les erreurs confiantes que l’incertitude et accorder un crédit partiel aux « je ne sais pas » calibrés. Certaines questions sont intrinsèquement impossibles à répondre uniquement à partir du texte, donc la précision ne sera jamais de 100 %. De plus, les petits modèles peuvent parfois mieux connaître leurs limites.

‍

Ce que dit réellement l’article
‍

Les hallucinations sont des affirmations fausses mais fluides, produites par un modèle avec confiance. Elles persistent car les évaluations habituelles valorisent la justesse sans considérer si le modèle aurait dû s’abstenir. Dans des classements basés uniquement sur la précision, deviner peut rapporter plus que l’honnêteté. Il faut donc changer les incitations. Les auteurs proposent une notation qui pénalise davantage les erreurs confiantes que l’incertitude, et qui accorde un crédit partiel aux abstentions appropriées. L’objectif est d’apprendre aux modèles à être calibrés plutôt qu’audacieux. Ce n’est pas « un benchmark de plus », mais un vrai changement de tableau de scores.

‍

Pourquoi cela arrive (statistiquement)
‍

Le pré-entraînement repose sur la prédiction du mot suivant : il capture les régularités (orthographe, syntaxe) mais pas les faits arbitraires ou rares. Certaines questions ne peuvent tout simplement pas être déduites des motifs, ce qui explique certains types d’hallucinations. L’entraînement ultérieur aide, mais ne les supprime pas complètement.

‍

Limites et idées reçues

La précision n’atteindra jamais 100 % dans des tâches réelles, car certaines questions sont sans réponse avec l’information disponible.
Les hallucinations ne sont pas inévitables : les modèles peuvent s’abstenir.
Plus grand ≠ toujours plus sûr : les petits modèles peuvent mieux reconnaître leurs limites. C’est un problème de calibration, pas d’échelle.

‍

État actuel‍

Les modèles récents réduisent les hallucinations, notamment en raisonnement, mais le problème persiste et doit être pris en compte dès la conception.

‍

Ce que cela signifie — L’avenir de l’IA fiable et les orientations

‍

TL;DR
On passera d’une logique « A-t-il donné la bonne réponse ? » à « A-t-il répondu de manière responsable ? ». L’industrie évoluera vers des métriques sensibles à la calibration, des produits favorisant l’abstention et des sorties ancrées dans des sources. Cela se reflétera dans les évaluations, l’entraînement et l’expérience utilisateur, rendant les systèmes plus prévisibles et auditables, sans promettre la perfection.

La fiabilité devient multidimensionnelle. La justesse reste importante, mais l’erreur confiante sera traitée comme une faute distincte et plus grave qu’une simple inexactitude. L’abstention deviendra une issue légitime, voire préférée, lorsque les preuves manquent.

Classements : ils évolueront. Si les tableaux cessent de récompenser les coups de chance, le développement se concentrera sur la calibration et l’honnêteté.
Taille des modèles : l’idée que seuls les modèles toujours plus grands peuvent être sûrs disparaît. Dans certains domaines, des modèles plus petits capables de bien s’abstenir offriront un meilleur profil de risque et un coût réduit.

‍À quoi pourraient ressembler les implémentations (vue d’ensemble)

Évaluations intégrant l’incertitude : des suites d’évaluation ajouteront ou renforceront des métriques qui pénalisent explicitement les erreurs confiantes et valorisent les abstentions calibrées.
UX produit avec un chemin “Je ne sais pas” : les interfaces normaliseront l’abstention et indiqueront quand les réponses sont incertaines, au lieu de forcer un choix. On verra des signaux de confiance plus clairs et des explications sur la base de décision.
Ancrage par défaut : plus de réponses liées à des sources et citations, pour permettre la vérification et signaler les manques.
Entraînement à la calibration : les objectifs d’optimisation incluront de plus en plus la calibration, pour aligner confiance et justesse plutôt que maximiser une précision apparente risquée.
Portefeuilles de modèles : les organisations déploieront un mix — certains modèles pour la couverture large, d’autres pour la correction prudente avec abstentions fréquentes dans les contextes sensibles.
Rapports transparents : les fiches de modèle mettront en avant les taux d’abstention et d’erreurs confiantes, et pas seulement la précision.

‍

Conclusion
‍

Cette recherche recadre les hallucinations, non pas comme des « bugs mystérieux », mais comme des conséquences prévisibles de la manière dont nous notons et récompensons les modèles. L’avenir n’est pas un système parfait et omniscient, mais des systèmes bien calibrés qui savent quand parler, quand citer, et quand se taire. Ce changement — intégrer l’incertitude dans l’évaluation, l’entraînement et l’UX — devrait rendre l’IA plus fiable et utile dans le travail quotidien.

‍

Prêt à commencer ? Discutons-en