Cum evaluăm
Metodologia juriului
Cum evaluează un panel IA fiecare afirmație de capacitate și cum se combină acele voturi individuale într-un singur verdict.
⚖ Ce este juriul?
Fiecare subiect de pe acest site (ex. „Poate IA traduce limba yoruba cu precizie?”) este analizat de un panel rotativ de modele IA — între 3 și 7 pe verificare, din familii de modele și producători diferiți. Numim acest panel juriul.
Nu publicăm deliberat ce modele participă la o verificare anume și nu le numim niciodată în verdicte publice. Scopul juriului este să capteze consensul sistemelor de raționament independente, nu să facă reclamă unor mărci anume sau să invite la manipulare. Intern, administratorul poate audita ce model a dat ce verdict, pentru transparență.
🗳️ Ce face fiecare jurat
Fiecărui jurat i se dă același prompt:
- Citește afirmația (ex. „Poate IA să compună o fugă în stilul lui Bach?”)
- Returnează un verdict de un cuvânt: POATE, NU POATE sau NECLAR.
- Dă o propoziție drept motiv pentru verdict.
- Dacă verdictul este POATE, estimează luna și anul în care capacitatea a apărut prima dată în mod fiabil.
Fiecare jurat răspunde independent. Niciunul nu vede verdictele celorlalți. Asta evită efectul de turmă care ar apărea dacă un model i-ar ancora pe ceilalți.
📊 Cum se combină verdictele
Statusul unei afirmații (POATE / NU POATE / CONTESTAT) este decis de însumarea cumulativă a tuturor verdictelor înregistrate vreodată — nu doar de ultima verificare. Pe măsură ce se acumulează mai multe verificări de-a lungul săptămânilor, suma netezește zgomotul oricărui panel individual.
Regulile, în ordine:
- Sunt necesare cel puțin 2 verdicte. Un singur jurat nu poate schimba un status — subiectul rămâne CONTESTAT până când se pronunță al doilea jurat.
- Unanimitatea câștigă imediat. Dacă toți jurații sunt de acord (ex. 3 din 3 spun NU POATE), verdictul se stabilește pe loc — nicio ambiguitate de rezolvat.
- Altfel decide 80% acord. Odată acumulate cel puțin 3 verdicte, verdictul se schimbă în direcția care depășește pragul de 80%. 11 spun POATE, 1 spune NU POATE → POATE (91%).
- Sub 80% = CONTESTAT. Dacă panelul nu atinge 80%+, subiectul rămâne CONTESTAT — un răspuns onest în sine, înseamnă că experții chiar nu sunt de acord.
🔄 Cât de des rulează jurații
Juriul rulează continuu. Subiectele cele mai vechi (cu cel mai mult timp de la ultima verificare) sunt analizate primele. Fiecare verificare scrie un rând permanent în jurnalul de audit din partea de jos a fiecărei pagini de subiect, arătând câți jurați au participat și distribuția verdictelor în ziua respectivă.
Deoarece capacitățile IA se schimbă de la lună la lună, un verdict nu este o judecată unică — este consensul curent, în mișcare. Un subiect care era NU POATE în martie poate trece la POATE până în iunie, iar jurnalul de audit păstrează acea istorie.
🧑⚖️ Voturile publicului vs. verdictele juriului
Bara publicului („Ce crede publicul”) și verdictul juriului sunt două semnale separate — nu se influențează reciproc.
- Voturile publicului sunt opinii umane, utile pentru a vedea unde intuiția populară diferă de evaluarea experților.
- Verdictele juriului sunt sursa de adevăr pentru eticheta de status POATE / NU POATE / CONTESTAT.
Când oamenii și juriul nu sunt de acord, e interesant editorial — adesea apare o capacitate emergentă pe care publicul nu a prins-o încă sau o afirmație de hype pe care juriul nu o crede.
🤔 De ce nu numim IA-urile?
A numi jurații creează probleme pe care vrem să le evităm:
- Aplauze pentru furnizori — „modelul X spune Y!” transformă site-ul într-un canal de marketing.
- Manipulare țintită — odată ce se știe ce modele judecă, prompt-urile și conținutul pot fi reglate pentru a păcăli modele specifice.
- Părtinire de brand la lectură — ai putea avea încredere sau nu într-un verdict în funcție de logo-ul care l-a emis, în loc de consens.
Tratarea juraților ca un panel anonim ține focusul pe verdict, nu pe votant.
Ultima actualizare mai 2026