Hoe we scoren
Jury-methodologie
Hoe een AI-panel elke capaciteitsclaim beoordeelt en hoe die individuele stemmen samenkomen tot één uitspraak.
⚖ Wat is de jury?
Elk onderwerp op deze site (bv. "Kan AI Yoruba nauwkeurig vertalen?") wordt beoordeeld door een wisselend panel van AI-modellen — tussen de 3 en 7 per controle, uit verschillende modelfamilies en leveranciers. Dit panel noemen we de jury.
We publiceren bewust niet welke modellen op een bepaalde controle zitten, en noemen ze nooit in openbare uitspraken. Het doel van de jury is de consensus van onafhankelijke redeneringssystemen vast te leggen, niet specifieke merken te promoten of manipulatie uit te lokken. Intern kan de beheerder controleren welk model welke uitspraak gaf, voor transparantie.
🗳️ Wat elk jurylid doet
Elk jurylid krijgt dezelfde prompt:
- Lees de stelling (bv. "Kan AI een fuga componeren in de stijl van Bach?")
- Geef een uitspraak van één woord: KAN, KAN NIET of ONBESLIST.
- Geef in één zin de reden voor de uitspraak.
- Als de uitspraak KAN is, schat dan de maand en het jaar waarin de capaciteit voor het eerst betrouwbaar verscheen.
Elk jurylid antwoordt onafhankelijk. Niemand ziet de uitspraken van de anderen. Dat voorkomt het kudde-effect dat ontstaat als één model de rest zou aansturen.
📊 Hoe uitspraken samenkomen
De status van een stelling (KAN / KAN NIET / BETWIST) wordt bepaald door de cumulatieve telling van elk juryvonnis ooit voor die stelling vastgelegd — niet alleen de meest recente controle. Naarmate er meer controles over weken bijkomen, vlakt de telling ruis uit één enkel panel af.
De regels, op volgorde:
- Minstens 2 uitspraken nodig. Eén jurylid kan een status niet omdraaien — het onderwerp blijft BETWIST tot een tweede jurylid stemt.
- Eensluidend wint direct. Als alle juryleden het eens zijn (bv. 3-van-3 zeggen KAN NIET), staat de uitspraak meteen vast — geen onduidelijkheid op te lossen.
- Anders beslist 80% overeenstemming. Zodra er minstens 3 uitspraken zijn, slaat de uitspraak om naar de richting die de 80%-grens overschrijdt. 11 zeggen KAN, 1 zegt KAN NIET → KAN (91%).
- Onder 80% = BETWIST. Als het panel het niet eens wordt bij 80%+, blijft het onderwerp BETWIST — een eerlijk antwoord op zich, dat betekent dat de experts het echt oneens zijn.
🔄 Hoe vaak de jury werkt
De jury werkt continu. Onderwerpen die het langst niet zijn gecontroleerd worden als eerste beoordeeld. Elke controle schrijft een permanente regel in het audit-log onderaan elke onderwerppagina, met het aantal deelnemende juryleden en de stemverdeling van die dag.
Omdat AI-capaciteiten van maand tot maand veranderen, is een uitspraak geen eenmalig oordeel — het is de huidige doorlopende consensus. Een onderwerp dat in maart KAN NIET was, kan in juni omslaan naar KAN, en het audit-log bewaart die geschiedenis.
🧑⚖️ Publiekstemmen vs. jury-uitspraken
De publieksbalk ("Wat het publiek denkt") en de jury-uitspraak zijn twee afzonderlijke signalen — ze beïnvloeden elkaar niet.
- Publieksstemmen zijn menselijke meningen, nuttig om te zien waar de publieke intuïtie afwijkt van expertbeoordeling.
- Jury-uitspraken zijn de bron van waarheid voor de KAN / KAN NIET / BETWIST status-pil.
Wanneer mensen en de jury het oneens zijn, is dat redactioneel interessant — vaak komt daar een opkomende capaciteit naar boven die het publiek nog niet heeft ingehaald, of een hypeclaim waar de jury niet in mee gaat.
🤔 Waarom de AI's niet bij naam noemen?
Juryleden bij naam noemen geeft problemen die we willen vermijden:
- Vendor-cheerleading — "model X zegt Y!" maakt van de site een marketingkanaal.
- Gericht manipuleren — zodra mensen weten welke modellen oordelen, kunnen prompts en inhoud op specifieke modellen worden afgestemd.
- Merkbias bij het lezen — je vertrouwt of wantrouwt een oordeel mogelijk op basis van welk logo het heeft uitgebracht, in plaats van de consensus.
Juryleden behandelen als een anoniem panel houdt de focus op de uitspraak, niet op de stemmer.
Laatst bijgewerkt mei 2026