Comment nous notons
Méthodologie du jury
Comment un panel d'IA évalue chaque revendication de capacité et comment ces votes individuels se combinent en un verdict unique.
⚖ Qu'est-ce que le jury ?
Chaque sujet de ce site (par ex. « L'IA peut-elle traduire le yoruba avec précision ? ») est examiné par un panel tournant de modèles d'IA — entre 3 et 7 par vérification, issus de familles de modèles et de fournisseurs différents. Nous appelons ce panel le jury.
Nous ne publions volontairement pas quels modèles siègent à une vérification donnée, et ne les nommons jamais dans les verdicts publics. L'objet du jury est de saisir le consensus de systèmes de raisonnement indépendants, pas de faire la promotion de marques ni d'inviter à la manipulation. En interne, l'administrateur peut auditer quel modèle a rendu quel verdict, pour la transparence.
🗳️ Ce que fait chaque juré
Chaque juré reçoit la même invite :
- Lisez l'affirmation (par ex. « L'IA peut-elle composer une fugue dans le style de Bach ? »)
- Rendez un verdict en un mot : PEUT, NE PEUT PAS, ou INDÉCIS.
- Donnez une phrase de justification pour le verdict.
- Si le verdict est PEUT, estimez le mois et l'année où la capacité a émergé de façon fiable pour la première fois.
Chaque juré répond indépendamment. Aucun ne voit les verdicts des autres. Cela évite l'effet de groupe qu'on aurait si un modèle ancrait les autres.
📊 Comment les verdicts se combinent
Le statut d'une affirmation (PEUT / NE PEUT PAS / CONTESTÉ) est décidé par le décompte cumulé de tous les verdicts de jurés jamais enregistrés — pas par la seule vérification la plus récente. À mesure que les vérifications s'accumulent au fil des semaines, le décompte lisse le bruit d'un panel unique.
Les règles, dans l'ordre :
- Au moins 2 verdicts requis. Un seul juré ne peut pas changer un statut — le sujet reste CONTESTÉ jusqu'à l'avis d'un deuxième juré.
- L'unanimité l'emporte immédiatement. Si tous les jurés sont d'accord (ex. 3 sur 3 disent NE PEUT PAS), le verdict est fixé sur-le-champ — aucune ambiguïté à résoudre.
- Sinon, 80 % d'accord tranche. Dès qu'au moins 3 verdicts sont accumulés, le verdict bascule dans la direction qui franchit le seuil des 80 %. 11 disent PEUT, 1 dit NE PEUT PAS → PEUT (91 %).
- Sous 80 % = CONTESTÉ. Si le panel ne s'accorde pas à 80 %+, le sujet reste CONTESTÉ — une réponse honnête en soi, signifiant que les experts sont réellement en désaccord.
🔄 À quelle fréquence la jury siège
Le jury fonctionne en continu. Les sujets les plus anciens (depuis leur dernière vérification) sont examinés en premier. Chaque vérification écrit une ligne permanente dans le journal d'audit en bas de chaque page de sujet, indiquant combien de jurés ont participé et la répartition du verdict ce jour-là.
Comme les capacités de l'IA changent de mois en mois, un verdict n'est pas un jugement ponctuel — c'est le consensus glissant actuel. Un sujet qui était NE PEUT PAS en mars peut basculer à PEUT en juin, et l'audit-log conserve cet historique.
🧑⚖️ Votes du public vs. verdicts du jury
La barre du public (« Ce que pense le public ») et le verdict du jury sont deux signaux distincts — ils ne s'influencent pas.
- Les votes du public sont des opinions humaines, utiles pour repérer où l'intuition populaire diffère de l'évaluation des experts.
- Les verdicts du jury font foi pour la pastille de statut PEUT / NE PEUT PAS / CONTESTÉ.
Quand humains et jury divergent, c'est éditorialement intéressant — souvent cela fait remonter une capacité émergente que le public n'a pas encore comprise, ou une hype que le jury ne gobe pas.
🤔 Pourquoi ne pas nommer les IA ?
Nommer les jurés crée des problèmes que nous voulons éviter :
- Cheerleading de fournisseurs — « le modèle X dit Y ! » transforme le site en canal marketing.
- Manipulation ciblée — dès qu'on sait quels modèles jugent, on peut adapter prompts et contenus pour cibler certains modèles.
- Biais de marque à la lecture — vous pourriez faire confiance ou non à un verdict selon le logo qui l'a rendu, plutôt que selon le consensus.
Traiter les jurés comme un panel anonyme garde l'attention sur le verdict, pas sur le votant.
Dernière mise à jour mai 2026