🔥 Hot topics · NEUMÍ · Umí · § The Court · Nedávná překlopení · 📈 Časová osa · Zeptat se · Komentáře · 🔥 Hot topics · NEUMÍ · Umí · § The Court · Nedávná překlopení · 📈 Časová osa · Zeptat se · Komentáře
Stuff AI CAN'T Do

Může AI dosáhnout skóre v top 10 % u SAT ?

Co si myslíš?

Verbální i kvantitativní část. SAT byl efektivně stažen jako benchmark pro hodnocení pokroku AI — příliš snadný.

Background

The SAT has historically been a benchmark for human academic assessment, though recent commentary notes that it has "effectively been retired as an AI-progress benchmark — too easy." While AI systems have made significant strides in natural language processing and in-domain problem solving—demonstrating impressive capabilities in processing and generating human-like language—achieving uniformly high performance across the SAT’s diverse sections remains a subject of ongoing research and development. Current AI models can excel in specific areas such as math or reading comprehension, but may struggle with more nuanced, context-dependent, or adversarially phrased questions that appear on the test. Studies and expert assessments indicate that holistic top-tier performance on the SAT continues to challenge AI systems, underscoring both the complexity of the test and the gaps between narrow-task proficiency and generalized reasoning.

— Source: MIT News (Enriched May 9, 2026)

Stav naposledy zkontrolován June 27, 2026.

📰

Galerie

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026
Sitting at the Bench Filed · čvn 27, 2026
— The Question Before the Court —

Může AI dosáhnout skóre v top 10 % u SAT?

★ The Court Finds ★
▲ Upgraded from Téměř
Ano

Porota dospěla k jasně kladné odpovědi.

Ruling of the Bench

Porota shledal kladnou argumentaci přesvědčivou, přičemž uvedl, že několik současných AI systémů opakovaně dosáhlo v testu SAT 90. percentilu či více. Jediný nesouhlasný hlas poukázal na drobné variace v testovacích protokolech jako na důvod pochybností, většina však rozhodla, že tyto nuance nejsou dostatečným důvodem k odkladu rozhodnutí. Pro knihy dějin soud pronesl svou závěrečnou větu s patřičnou razancí.

— Hon. C. Babbage, Presiding
Jury Tally
1Ano
0Téměř
0Ne
Verdict Confidence
95%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 Ne
Session II · May 2026 Ne
Session III · May 2026 Téměř · 83%
Session IV · May 2026 Téměř · 80%
Session V · May 2026 Téměř · 82%
Session VI · May 2026 Ano · 82%
Session VII · Jun 2026 Téměř · 80%
Session VIII · Jun 2026 Téměř · 82%
Session IX · Jun 2026 Ano · 95%
Session X · Jun 2026 Téměř · 75%
Case № EB57 · Session XI
In the Court of AI Capability

The Case File

Docket № EB57 · Session XI · Vol. XI
I. Particulars of the Case
Question put to the courtMůže AI dosáhnout skóre v top 10 % u SAT?
SessionXI (11 hearing)
Convened27 čvn 2026
Previously ruledNO (May '26) → NO (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → YES (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → YES (Jun '26) → ALMOST (Jun '26) → YES (Jun '26)
Presiding JudgeHon. C. Babbage
II. Cumulative Tally Across Sessions

Across 11 sessions, 34 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 5 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 1 — 0 — 0, the panel returns a verdict of ANO, with verdict confidence of 95%. The court so orders. Verdict upgraded from prior session.

IV. Prohlášení soudců
Porotce I ANO

"AI systems like ChatGPT, Claude, and specialized LLM-based solvers have repeatedly scored in the 90th percentile+ on SAT-style tests under controlled conditions."

Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.

C. Babbage
Presiding Judge
M. Lovelace
Clerk of the Court

Co si myslí publikum

Ne 6% · Ano 76% · Možná 18% 177 votes
Ano · 76%
Možná · 18%
Trend potřebuje hlasy z alespoň 2 různých dní.

Diskuze

no comments

Komentáře a obrázky procházejí kontrolou admina, než se objeví veřejně.

11 jury checks · nejnovější před 1 dnem
27 Jun 2026 1 juror · umí umí
22 Jun 2026 2 jurors · nerozhodnuto, nerozhodnuto nerozhodnuto
16 Jun 2026 1 juror · umí umí
11 Jun 2026 4 jurors · nerozhodnuto, umí, umí, nerozhodnuto nerozhodnuto
05 Jun 2026 4 jurors · nerozhodnuto, umí, nerozhodnuto, nerozhodnuto nerozhodnuto
31 May 2026 3 jurors · umí, umí, nerozhodnuto nerozhodnuto
26 May 2026 5 jurors · nerozhodnuto, umí, umí, nerozhodnuto, nerozhodnuto nerozhodnuto
20 May 2026 5 jurors · nerozhodnuto, nerozhodnuto, umí, nerozhodnuto, nerozhodnuto nerozhodnuto
15 May 2026 4 jurors · nerozhodnuto, umí, umí, nerozhodnuto nerozhodnuto stav změněn
12 May 2026 3 jurors · neumí, neumí, neumí neumí
11 May 2026 2 jurors · neumí, neumí neumí stav změněn

Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.

Další v Judgment

Máte nějakou, kterou jsme přehlédli?

Přidejte tvrzení do atlasu. Kontrolujeme týdně.