🔥 Hot topics · Mudanças recentes · 📈 Cronologia · Pergunta · Editoriais · 🔥 Hot topics · Mudanças recentes · 📈 Cronologia · Pergunta · Editoriais
Stuff AI CAN'T Do

Como pontuamos

Metodologia do júri

Como um painel de IA avalia cada alegação de capacidade e como esses votos individuais se combinam num único veredicto.

⚖ O que é o júri?

Cada tema deste site (p. ex. "A IA consegue traduzir Iorubá com precisão?") é analisado por um painel rotativo de modelos de IA — entre 3 e 7 por verificação, de famílias de modelos e fornecedores diferentes. A este painel chamamos o júri.

Deliberadamente não publicamos quais modelos estão em determinada verificação, e nunca os nomeamos em veredictos públicos. O objetivo do júri é captar o consenso de sistemas de raciocínio independentes, não promover marcas específicas ou convidar à manipulação. Internamente, o admin pode auditar que modelo devolveu qual veredicto, para transparência.

🗳️ O que cada jurado faz

A cada jurado é dado o mesmo prompt:

  1. Lê a afirmação (p. ex. "A IA consegue compor uma fuga ao estilo de Bach?")
  2. Devolve um veredicto de uma palavra: PODE, NÃO PODE ou INDECISO.
  3. Dá uma frase de razão para o veredicto.
  4. Se o veredicto for PODE, estima o mês e o ano em que a capacidade surgiu de forma fiável pela primeira vez.

Cada jurado responde de forma independente. Nenhum vê os veredictos dos outros. Isto evita o efeito de manada que existiria se um modelo ancorasse os outros.

📊 Como se combinam os veredictos

O estado de uma afirmação (PODE / NÃO PODE / DISPUTADO) é decidido pela contagem cumulativa de cada veredicto de jurado alguma vez registado — não só pela verificação mais recente. À medida que se acumulam mais verificações ao longo das semanas, a contagem suaviza o ruído de qualquer painel único.

As regras, por ordem:

  • São precisos pelo menos 2 veredictos. Um único jurado não pode mudar um estado — o tema fica DISPUTADO até que um segundo jurado se pronuncie.
  • A unanimidade vence imediatamente. Se todos os jurados concordam (p. ex. 3 em 3 dizem NÃO PODE), o veredicto fixa-se de imediato — sem ambiguidade a resolver.
  • Caso contrário, 80% de acordo decide. Assim que se acumulam pelo menos 3 veredictos, o veredicto muda para a direção que ultrapassa o limiar de 80%. 11 dizem PODE, 1 diz NÃO PODE → PODE (91%).
  • Abaixo de 80% = DISPUTADO. Se o painel não chegar a 80%+, o tema fica DISPUTADO — uma resposta honesta por si só, significa que os especialistas discordam genuinamente.

🔄 Com que frequência o júri se reúne

O júri corre continuamente. Os temas mais antigos (com mais tempo desde a última verificação) são analisados primeiro. Cada verificação escreve uma linha permanente no registo de auditoria no fundo de cada página de tema, mostrando quantos jurados participaram e a distribuição do veredicto desse dia.

Como as capacidades de IA mudam de mês para mês, um veredicto não é um juízo único — é o consenso atual em curso. Um tema que era NÃO PODE em março pode passar a PODE em junho, e o registo de auditoria preserva essa história.

🧑‍⚖️ Votos do público vs. veredictos do júri

A barra do público ("O que o público pensa") e o veredicto do júri são dois sinais separados — não se influenciam mutuamente.

  • Os votos do público são opiniões humanas, úteis para perceber onde a intuição popular diverge da avaliação dos especialistas.
  • Os veredictos do júri são a fonte da verdade para a etiqueta de estado PODE / NÃO PODE / DISPUTADO.

Quando humanos e o júri discordam, é editorialmente interessante — muitas vezes faz surgir uma capacidade emergente que o público ainda não percebeu, ou uma alegação de hype na qual o júri não acredita.

🤔 Porque é que não nomeamos as IAs?

Nomear os jurados cria problemas que queremos evitar:

  • Promoção de fornecedores — "o modelo X diz Y!" transforma o site num canal de marketing.
  • Manipulação direcionada — assim que se sabe quais modelos julgam, prompts e conteúdos podem ser afinados para enganar modelos específicos.
  • Viés de marca na leitura — podes confiar ou desconfiar de um veredicto consoante o logótipo que o emitiu, em vez do consenso.

Tratar os jurados como um painel anónimo mantém o foco no veredicto, não em quem vota.

Última atualização maio 2026

Tens alguma que nos escapou?

Adiciona uma afirmação ao atlas. Revemos semanalmente.