Come valutiamo
Metodologia della giuria
Come un panel di IA valuta ogni affermazione di capacità e come quei singoli voti si combinano in un unico verdetto.
⚖ Cos'è la giuria?
Ogni tema su questo sito (es. "L'IA sa tradurre lo yoruba con precisione?") è esaminato da un panel rotante di modelli di IA — da 3 a 7 per controllo, scelti da famiglie di modelli e fornitori diversi. Chiamiamo questo panel la giuria.
Volutamente non pubblichiamo quali modelli sono presenti in un dato controllo, e non li nominiamo mai nei verdetti pubblici. Il senso della giuria è cogliere il consenso di sistemi di ragionamento indipendenti, non pubblicizzare marchi specifici né invitare alla manipolazione. Internamente l'admin può verificare quale modello ha emesso quale verdetto, per trasparenza.
🗳️ Cosa fa ogni giurato
Ogni giurato riceve lo stesso prompt:
- Leggi l'affermazione (es. "L'IA sa comporre una fuga in stile Bach?")
- Restituisci un verdetto di una parola: PUÒ, NON PUÒ o INDECISO.
- Dai una frase di motivazione per il verdetto.
- Se il verdetto è PUÒ, stima il mese e l'anno in cui la capacità è emersa per la prima volta in modo affidabile.
Ogni giurato risponde in modo indipendente. Nessuno vede i verdetti degli altri. Questo evita l'effetto gregge che si avrebbe se un modello ancorasse gli altri.
📊 Come si combinano i verdetti
Lo stato di un'affermazione (PUÒ / NON PUÒ / CONTESTATO) è deciso dal conteggio cumulativo di ogni verdetto giurato mai registrato — non solo dall'ultimo controllo. Man mano che si accumulano controlli nelle settimane, il conteggio attenua il rumore di un singolo panel.
Le regole, in ordine:
- Servono almeno 2 verdetti. Un singolo giurato non può cambiare uno stato — il tema resta CONTESTATO finché un secondo giurato non interviene.
- L'unanimità vince subito. Se tutti i giurati concordano (es. 3 su 3 dicono NON PUÒ), il verdetto si chiude all'istante — nessuna ambiguità da risolvere.
- Altrimenti decide l'80% di accordo. Una volta accumulati almeno 3 verdetti, il verdetto bascula nella direzione che supera la soglia dell'80%. 11 dicono PUÒ, 1 dice NON PUÒ → PUÒ (91%).
- Sotto l'80% = CONTESTATO. Se il panel non raggiunge l'80%+, il tema resta CONTESTATO — una risposta onesta in sé, significa che gli esperti sono davvero in disaccordo.
🔄 Ogni quanto si riunisce la giuria
La giuria gira in continuo. I temi più datati (più tempo dall'ultimo controllo) vengono esaminati per primi. Ogni controllo scrive una riga permanente nell'audit log in fondo a ogni pagina di tema, indicando quanti giurati hanno partecipato e la ripartizione del verdetto di quel giorno.
Poiché le capacità dell'IA cambiano di mese in mese, un verdetto non è un giudizio unico — è il consenso corrente, in movimento. Un tema che a marzo era NON PUÒ può passare a PUÒ entro giugno, e l'audit log conserva questa storia.
🧑⚖️ Voti del pubblico vs. verdetti della giuria
La barra del pubblico ("Cosa pensa il pubblico") e il verdetto della giuria sono due segnali separati — non si influenzano a vicenda.
- I voti del pubblico sono opinioni umane, utili per individuare dove l'intuizione popolare differisce dalla valutazione degli esperti.
- I verdetti della giuria sono la fonte di verità per l'etichetta di stato PUÒ / NON PUÒ / CONTESTATO.
Quando umani e giuria divergono, è interessante dal punto di vista editoriale — spesso emerge una capacità nascente che il pubblico non ha ancora colto, o un'affermazione hype a cui la giuria non crede.
🤔 Perché non nominare le IA?
Nominare i giurati crea problemi che vogliamo evitare:
- Tifoseria del fornitore — "il modello X dice Y!" trasforma il sito in un canale di marketing.
- Manipolazione mirata — una volta che si sa quali modelli giudicano, prompt e contenuti possono essere adattati per ingannare quelli specifici.
- Bias di marca nella lettura — potresti fidarti o diffidare di un verdetto in base al logo che l'ha emesso, invece che al consenso.
Trattare i giurati come un panel anonimo mantiene il focus sul verdetto, non sul votante.
Ultimo aggiornamento maggio 2026