🔥 Hot topics · Cambi recenti · 📈 Cronologia · Chiedi · Editoriali · 🔥 Hot topics · Cambi recenti · 📈 Cronologia · Chiedi · Editoriali
Stuff AI CAN'T Do

Come valutiamo

Metodologia della giuria

Come un panel di IA valuta ogni affermazione di capacità e come quei singoli voti si combinano in un unico verdetto.

⚖ Cos'è la giuria?

Ogni tema su questo sito (es. "L'IA sa tradurre lo yoruba con precisione?") è esaminato da un panel rotante di modelli di IA — da 3 a 7 per controllo, scelti da famiglie di modelli e fornitori diversi. Chiamiamo questo panel la giuria.

Volutamente non pubblichiamo quali modelli sono presenti in un dato controllo, e non li nominiamo mai nei verdetti pubblici. Il senso della giuria è cogliere il consenso di sistemi di ragionamento indipendenti, non pubblicizzare marchi specifici né invitare alla manipolazione. Internamente l'admin può verificare quale modello ha emesso quale verdetto, per trasparenza.

🗳️ Cosa fa ogni giurato

Ogni giurato riceve lo stesso prompt:

  1. Leggi l'affermazione (es. "L'IA sa comporre una fuga in stile Bach?")
  2. Restituisci un verdetto di una parola: PUÒ, NON PUÒ o INDECISO.
  3. Dai una frase di motivazione per il verdetto.
  4. Se il verdetto è PUÒ, stima il mese e l'anno in cui la capacità è emersa per la prima volta in modo affidabile.

Ogni giurato risponde in modo indipendente. Nessuno vede i verdetti degli altri. Questo evita l'effetto gregge che si avrebbe se un modello ancorasse gli altri.

📊 Come si combinano i verdetti

Lo stato di un'affermazione (PUÒ / NON PUÒ / CONTESTATO) è deciso dal conteggio cumulativo di ogni verdetto giurato mai registrato — non solo dall'ultimo controllo. Man mano che si accumulano controlli nelle settimane, il conteggio attenua il rumore di un singolo panel.

Le regole, in ordine:

  • Servono almeno 2 verdetti. Un singolo giurato non può cambiare uno stato — il tema resta CONTESTATO finché un secondo giurato non interviene.
  • L'unanimità vince subito. Se tutti i giurati concordano (es. 3 su 3 dicono NON PUÒ), il verdetto si chiude all'istante — nessuna ambiguità da risolvere.
  • Altrimenti decide l'80% di accordo. Una volta accumulati almeno 3 verdetti, il verdetto bascula nella direzione che supera la soglia dell'80%. 11 dicono PUÒ, 1 dice NON PUÒ → PUÒ (91%).
  • Sotto l'80% = CONTESTATO. Se il panel non raggiunge l'80%+, il tema resta CONTESTATO — una risposta onesta in sé, significa che gli esperti sono davvero in disaccordo.

🔄 Ogni quanto si riunisce la giuria

La giuria gira in continuo. I temi più datati (più tempo dall'ultimo controllo) vengono esaminati per primi. Ogni controllo scrive una riga permanente nell'audit log in fondo a ogni pagina di tema, indicando quanti giurati hanno partecipato e la ripartizione del verdetto di quel giorno.

Poiché le capacità dell'IA cambiano di mese in mese, un verdetto non è un giudizio unico — è il consenso corrente, in movimento. Un tema che a marzo era NON PUÒ può passare a PUÒ entro giugno, e l'audit log conserva questa storia.

🧑‍⚖️ Voti del pubblico vs. verdetti della giuria

La barra del pubblico ("Cosa pensa il pubblico") e il verdetto della giuria sono due segnali separati — non si influenzano a vicenda.

  • I voti del pubblico sono opinioni umane, utili per individuare dove l'intuizione popolare differisce dalla valutazione degli esperti.
  • I verdetti della giuria sono la fonte di verità per l'etichetta di stato PUÒ / NON PUÒ / CONTESTATO.

Quando umani e giuria divergono, è interessante dal punto di vista editoriale — spesso emerge una capacità nascente che il pubblico non ha ancora colto, o un'affermazione hype a cui la giuria non crede.

🤔 Perché non nominare le IA?

Nominare i giurati crea problemi che vogliamo evitare:

  • Tifoseria del fornitore — "il modello X dice Y!" trasforma il sito in un canale di marketing.
  • Manipolazione mirata — una volta che si sa quali modelli giudicano, prompt e contenuti possono essere adattati per ingannare quelli specifici.
  • Bias di marca nella lettura — potresti fidarti o diffidare di un verdetto in base al logo che l'ha emesso, invece che al consenso.

Trattare i giurati come un panel anonimo mantiene il focus sul verdetto, non sul votante.

Ultimo aggiornamento maggio 2026

Ne hai una che ci è sfuggita?

Aggiungi un'affermazione all'atlante. Le revisioniamo settimanalmente.