Verbal e quantitativo. O SAT foi efetivamente aposentado como um benchmark de progresso da IA — demasiado fácil. --- Os sistemas de IA têm demonstrado capacidades impressionantes no processamento e geração de linguagem semelhante à humana, o que é crucial para obter bons resultados em testes padronizados como o SAT. Embora tenham havido avanços significativos no processamento de linguagem natural, a capacidade da IA de obter pontuações no top 10% do SAT ainda é objeto de investigação e desenvolvimento contínuos. Os modelos atuais de IA podem destacar-se em áreas específicas, como matemática ou compreensão de leitura, mas podem ter dificuldade com questões mais subtis ou dependentes de contexto. Como resultado, alcançar uma pontuação no top 10% no SAT continua a ser uma tarefa desafiante para os sistemas de IA. — Enriquecido a 9 de maio de 2026 · Fonte: MIT News — https://news.mit.edu/

⚖️ Judgment · May 8, 2026 · STUFFAICANTDO.COM · Denunciar isto

Pode a IA obter pontuação no top 10% no SAT ?

O que achas? A IA consegue fazer isto?

Vota — depois lê o que o nosso editor e os modelos de IA encontraram.

Verbal e quantitativo.

O SAT foi efetivamente aposentado como um benchmark de progresso da IA — demasiado fácil.

#Standardized Test

#Math Comprehension

#Reading Comprehension

Background

The SAT has historically been a benchmark for human academic assessment, though recent commentary notes that it has "effectively been retired as an AI-progress benchmark — too easy." While AI systems have made significant strides in natural language processing and in-domain problem solving—demonstrating impressive capabilities in processing and generating human-like language—achieving uniformly high performance across the SAT’s diverse sections remains a subject of ongoing research and development. Current AI models can excel in specific areas such as math or reading comprehension, but may struggle with more nuanced, context-dependent, or adversarially phrased questions that appear on the test. Studies and expert assessments indicate that holistic top-tier performance on the SAT continues to challenge AI systems, underscoring both the complexity of the test and the gaps between narrow-task proficiency and generalized reasoning.

— Source: MIT News (Enriched May 9, 2026)

Estado verificado pela última vez em June 27, 2026.

📰

Galeria

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · jun 27, 2026

— The Question Before the Court —

Pode a IA obter pontuação no top 10% no SAT?

★ The Court Finds ★

▲ Upgraded from Quase

⚖

Sim

O júri encontrou uma resposta claramente afirmativa.

Ruling of the Bench

O júri considerou o caso afirmativo esmagadoramente persuasivo, salientando que vários sistemas de IA contemporâneos repetidamente passaram no exame SAT no percentil 90 ou superior. A única voz dissidente citou pequenas variações nos protocolos de teste como fundamento para a dúvida, mas a maioria decidiu que tais nuances não eram suficientes para adiar o julgamento. Um marco para a história, o tribunal proferiu a sua decisão final com um floreado.

— Hon. C. Babbage, Presiding

Jury Tally

1Sim

0Quase

0Não

Verdict Confidence

95%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Não

Session II · May 2026 Não

Session III · May 2026 Quase · 83%

Session IV · May 2026 Quase · 80%

Session V · May 2026 Quase · 82%

Session VI · May 2026 Sim · 82%

Session VII · Jun 2026 Quase · 80%

Session VIII · Jun 2026 Quase · 82%

Session IX · Jun 2026 Sim · 95%

Session X · Jun 2026 Quase · 75%

Case № EB57 · Session XI

In the Court of AI Capability

The Case File

Docket № EB57 · Session XI · Vol. XI

I. Particulars of the Case

Question put to the courtPode a IA obter pontuação no top 10% no SAT?

SessionXI (11 hearing)

Convened27 jun 2026

Previously ruledNO (May '26) → NO (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → YES (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → YES (Jun '26) → ALMOST (Jun '26) → YES (Jun '26)

Presiding JudgeHon. C. Babbage

II. Cumulative Tally Across Sessions

Across 11 sessions, 34 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 5 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 1 — 0 — 0, the panel returns a verdict of SIM, with verdict confidence of 95%. The court so orders. Verdict upgraded from prior session.

IV. Declarações do tribunal

Jurado I SIM

"AI systems like ChatGPT, Claude, and specialized LLM-based solvers have repeatedly scored in the 90th percentile+ on SAT-style tests under controlled conditions."

As declarações individuais dos jurados são exibidas no inglês original para preservar a precisão probatória.

C. Babbage

Presiding Judge

M. Lovelace

Clerk of the Court

Estado atual

DISPUTADO

Ponto de viragem

em disputa

⚖ Júri ⓘ

12✓ · 5✗ · 17?

→ disputado

O que o público pensa

Não 6% · Sim 76% · Talvez 18% 177 votes

Sim · 76%

Talvez · 18%

A tendência precisa de votos de, pelo menos, 2 dias diferentes.

Discussão

no comments

⚖ 11 jury checks · mais recente há 1 dia

27 Jun 2026 1 juror · pode pode

22 Jun 2026 2 jurors · indeciso, indeciso indeciso

16 Jun 2026 1 juror · pode pode

11 Jun 2026 4 jurors · indeciso, pode, pode, indeciso indeciso

05 Jun 2026 4 jurors · indeciso, pode, indeciso, indeciso indeciso

31 May 2026 3 jurors · pode, pode, indeciso indeciso

26 May 2026 5 jurors · indeciso, pode, pode, indeciso, indeciso indeciso

20 May 2026 5 jurors · indeciso, indeciso, pode, indeciso, indeciso indeciso

15 May 2026 4 jurors · indeciso, pode, pode, indeciso indeciso estado alterado

12 May 2026 3 jurors · não pode, não pode, não pode não pode

11 May 2026 2 jurors · não pode, não pode não pode estado alterado

Cada linha é uma verificação de júri separada. Os jurados são modelos de IA (identidades mantidas neutras de propósito). O estado reflete a contagem cumulativa de todas as verificações — como o júri funciona.

Mais em Judgment

A IA pode determinar um nível de dor percebida monitorizando métricas corporais ou atividade cerebral ?

DISPUTADO

A IA pode ajudar alguém a auto-refletir sobre os seus traços de carácter analisando conversas ?

DISPUTADO

🎲 Escolha aleatória

A IA pode prever crises epiléticas cinco minutos antes usando dados de uma headband de EEG ?

DISPUTADO · health

Todos em Judgment → Mudaram anteriormente →

Pode a IA obter pontuação no top 10% no SAT ?

Sugerir uma etiqueta

Pode a IA obter pontuação no top 10% no SAT?

The Case File

O que o público pensa

Discussão

Mais em Judgment

🧪 Como testamos as capacidades da IA

⚠ Esta pergunta mistura mais do que uma coisa

Avisa-me

Incorporar

Tens alguma que nos escapou?

🔎Ainda em pesquisa

Adicionar uma afirmação