🔥 Hot topics · NÃO sabe fazer · Sabe fazer · § The Court · Mudanças recentes · 📈 Cronologia · Pergunta · Editoriais · 🔥 Hot topics · NÃO sabe fazer · Sabe fazer · § The Court · Mudanças recentes · 📈 Cronologia · Pergunta · Editoriais
Stuff AI CAN'T Do

Pode a IA obter pontuação no top 10% no SAT ?

O que achas?

Verbal e quantitativo.

O SAT foi efetivamente aposentado como um benchmark de progresso da IA — demasiado fácil.

Background

The SAT has historically been a benchmark for human academic assessment, though recent commentary notes that it has "effectively been retired as an AI-progress benchmark — too easy." While AI systems have made significant strides in natural language processing and in-domain problem solving—demonstrating impressive capabilities in processing and generating human-like language—achieving uniformly high performance across the SAT’s diverse sections remains a subject of ongoing research and development. Current AI models can excel in specific areas such as math or reading comprehension, but may struggle with more nuanced, context-dependent, or adversarially phrased questions that appear on the test. Studies and expert assessments indicate that holistic top-tier performance on the SAT continues to challenge AI systems, underscoring both the complexity of the test and the gaps between narrow-task proficiency and generalized reasoning.

— Source: MIT News (Enriched May 9, 2026)

Estado verificado pela última vez em June 27, 2026.

📰

Galeria

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026
Sitting at the Bench Filed · jun 27, 2026
— The Question Before the Court —

Pode a IA obter pontuação no top 10% no SAT?

★ The Court Finds ★
▲ Upgraded from Quase
Sim

O júri encontrou uma resposta claramente afirmativa.

Ruling of the Bench

O júri considerou o caso afirmativo esmagadoramente persuasivo, salientando que vários sistemas de IA contemporâneos repetidamente passaram no exame SAT no percentil 90 ou superior. A única voz dissidente citou pequenas variações nos protocolos de teste como fundamento para a dúvida, mas a maioria decidiu que tais nuances não eram suficientes para adiar o julgamento. Um marco para a história, o tribunal proferiu a sua decisão final com um floreado.

— Hon. C. Babbage, Presiding
Jury Tally
1Sim
0Quase
0Não
Verdict Confidence
95%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 Não
Session II · May 2026 Não
Session III · May 2026 Quase · 83%
Session IV · May 2026 Quase · 80%
Session V · May 2026 Quase · 82%
Session VI · May 2026 Sim · 82%
Session VII · Jun 2026 Quase · 80%
Session VIII · Jun 2026 Quase · 82%
Session IX · Jun 2026 Sim · 95%
Session X · Jun 2026 Quase · 75%
Case № EB57 · Session XI
In the Court of AI Capability

The Case File

Docket № EB57 · Session XI · Vol. XI
I. Particulars of the Case
Question put to the courtPode a IA obter pontuação no top 10% no SAT?
SessionXI (11 hearing)
Convened27 jun 2026
Previously ruledNO (May '26) → NO (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → YES (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → YES (Jun '26) → ALMOST (Jun '26) → YES (Jun '26)
Presiding JudgeHon. C. Babbage
II. Cumulative Tally Across Sessions

Across 11 sessions, 34 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 5 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 1 — 0 — 0, the panel returns a verdict of SIM, with verdict confidence of 95%. The court so orders. Verdict upgraded from prior session.

IV. Declarações do tribunal
Jurado I SIM

"AI systems like ChatGPT, Claude, and specialized LLM-based solvers have repeatedly scored in the 90th percentile+ on SAT-style tests under controlled conditions."

As declarações individuais dos jurados são exibidas no inglês original para preservar a precisão probatória.

C. Babbage
Presiding Judge
M. Lovelace
Clerk of the Court

O que o público pensa

Não 6% · Sim 76% · Talvez 18% 177 votes
Sim · 76%
Talvez · 18%
A tendência precisa de votos de, pelo menos, 2 dias diferentes.

Discussão

no comments

Comentários e imagens passam por análise admin antes de aparecerem publicamente.

11 jury checks · mais recente há 1 dia
27 Jun 2026 1 juror · pode pode
22 Jun 2026 2 jurors · indeciso, indeciso indeciso
16 Jun 2026 1 juror · pode pode
11 Jun 2026 4 jurors · indeciso, pode, pode, indeciso indeciso
05 Jun 2026 4 jurors · indeciso, pode, indeciso, indeciso indeciso
31 May 2026 3 jurors · pode, pode, indeciso indeciso
26 May 2026 5 jurors · indeciso, pode, pode, indeciso, indeciso indeciso
20 May 2026 5 jurors · indeciso, indeciso, pode, indeciso, indeciso indeciso
15 May 2026 4 jurors · indeciso, pode, pode, indeciso indeciso estado alterado
12 May 2026 3 jurors · não pode, não pode, não pode não pode
11 May 2026 2 jurors · não pode, não pode não pode estado alterado

Cada linha é uma verificação de júri separada. Os jurados são modelos de IA (identidades mantidas neutras de propósito). O estado reflete a contagem cumulativa de todas as verificações — como o júri funciona.

Mais em Judgment

Tens alguma que nos escapou?

Adiciona uma afirmação ao atlas. Revemos semanalmente.