Como pontuamos
Metodologia do júri
Como um painel de IA avalia cada alegação de capacidade e como esses votos individuais se combinam num único veredicto.
⚖ O que é o júri?
Cada tema deste site (p. ex. "A IA consegue traduzir Iorubá com precisão?") é analisado por um painel rotativo de modelos de IA — entre 3 e 7 por verificação, de famílias de modelos e fornecedores diferentes. A este painel chamamos o júri.
Deliberadamente não publicamos quais modelos estão em determinada verificação, e nunca os nomeamos em veredictos públicos. O objetivo do júri é captar o consenso de sistemas de raciocínio independentes, não promover marcas específicas ou convidar à manipulação. Internamente, o admin pode auditar que modelo devolveu qual veredicto, para transparência.
🗳️ O que cada jurado faz
A cada jurado é dado o mesmo prompt:
- Lê a afirmação (p. ex. "A IA consegue compor uma fuga ao estilo de Bach?")
- Devolve um veredicto de uma palavra: PODE, NÃO PODE ou INDECISO.
- Dá uma frase de razão para o veredicto.
- Se o veredicto for PODE, estima o mês e o ano em que a capacidade surgiu de forma fiável pela primeira vez.
Cada jurado responde de forma independente. Nenhum vê os veredictos dos outros. Isto evita o efeito de manada que existiria se um modelo ancorasse os outros.
📊 Como se combinam os veredictos
O estado de uma afirmação (PODE / NÃO PODE / DISPUTADO) é decidido pela contagem cumulativa de cada veredicto de jurado alguma vez registado — não só pela verificação mais recente. À medida que se acumulam mais verificações ao longo das semanas, a contagem suaviza o ruído de qualquer painel único.
As regras, por ordem:
- São precisos pelo menos 2 veredictos. Um único jurado não pode mudar um estado — o tema fica DISPUTADO até que um segundo jurado se pronuncie.
- A unanimidade vence imediatamente. Se todos os jurados concordam (p. ex. 3 em 3 dizem NÃO PODE), o veredicto fixa-se de imediato — sem ambiguidade a resolver.
- Caso contrário, 80% de acordo decide. Assim que se acumulam pelo menos 3 veredictos, o veredicto muda para a direção que ultrapassa o limiar de 80%. 11 dizem PODE, 1 diz NÃO PODE → PODE (91%).
- Abaixo de 80% = DISPUTADO. Se o painel não chegar a 80%+, o tema fica DISPUTADO — uma resposta honesta por si só, significa que os especialistas discordam genuinamente.
🔄 Com que frequência o júri se reúne
O júri corre continuamente. Os temas mais antigos (com mais tempo desde a última verificação) são analisados primeiro. Cada verificação escreve uma linha permanente no registo de auditoria no fundo de cada página de tema, mostrando quantos jurados participaram e a distribuição do veredicto desse dia.
Como as capacidades de IA mudam de mês para mês, um veredicto não é um juízo único — é o consenso atual em curso. Um tema que era NÃO PODE em março pode passar a PODE em junho, e o registo de auditoria preserva essa história.
🧑⚖️ Votos do público vs. veredictos do júri
A barra do público ("O que o público pensa") e o veredicto do júri são dois sinais separados — não se influenciam mutuamente.
- Os votos do público são opiniões humanas, úteis para perceber onde a intuição popular diverge da avaliação dos especialistas.
- Os veredictos do júri são a fonte da verdade para a etiqueta de estado PODE / NÃO PODE / DISPUTADO.
Quando humanos e o júri discordam, é editorialmente interessante — muitas vezes faz surgir uma capacidade emergente que o público ainda não percebeu, ou uma alegação de hype na qual o júri não acredita.
🤔 Porque é que não nomeamos as IAs?
Nomear os jurados cria problemas que queremos evitar:
- Promoção de fornecedores — "o modelo X diz Y!" transforma o site num canal de marketing.
- Manipulação direcionada — assim que se sabe quais modelos julgam, prompts e conteúdos podem ser afinados para enganar modelos específicos.
- Viés de marca na leitura — podes confiar ou desconfiar de um veredicto consoante o logótipo que o emitiu, em vez do consenso.
Tratar os jurados como um painel anónimo mantém o foco no veredicto, não em quem vota.
Última atualização maio 2026