🔥 Hot topics · NU poate · Poate · § The Court · Schimbări recente · 📈 Cronologie · Întreabă · Editoriale · 🔥 Hot topics · NU poate · Poate · § The Court · Schimbări recente · 📈 Cronologie · Întreabă · Editoriale
Stuff AI CAN'T Do

Poate AI să obțină un scor în top 10% la SAT ?

Tu ce crezi?

Verbal și cantitativ. SAT-ul a fost efectiv retras ca reper de evaluare a progresului AI — prea ușor.

Background

The SAT has historically been a benchmark for human academic assessment, though recent commentary notes that it has "effectively been retired as an AI-progress benchmark — too easy." While AI systems have made significant strides in natural language processing and in-domain problem solving—demonstrating impressive capabilities in processing and generating human-like language—achieving uniformly high performance across the SAT’s diverse sections remains a subject of ongoing research and development. Current AI models can excel in specific areas such as math or reading comprehension, but may struggle with more nuanced, context-dependent, or adversarially phrased questions that appear on the test. Studies and expert assessments indicate that holistic top-tier performance on the SAT continues to challenge AI systems, underscoring both the complexity of the test and the gaps between narrow-task proficiency and generalized reasoning.

— Source: MIT News (Enriched May 9, 2026)

Status verificat ultima dată pe June 27, 2026.

📰

Galerie

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026
Sitting at the Bench Filed · iun. 27, 2026
— The Question Before the Court —

Poate AI să obțină un scor în top 10% la SAT?

★ The Court Finds ★
▲ Upgraded from Aproape
Da

Juriul a găsit un răspuns clar afirmativ.

Ruling of the Bench

Juriul a găsit cauza afirmativă în mod copleșitor de convingătoare, notând că multiple sisteme AI contemporane au depășit în mod repetat pragul SAT în percentilul 90 sau mai mult. Singura voce dizidentă a citat variații minore în protocoalele de testare ca motive de îndoială, dar majoritatea a decis că asemenea nuanțe nu erau suficiente pentru a refuza judecata. Unul pentru cărțile de istorie, banca a livrat ultima sa frază cu o fluență.

— Hon. C. Babbage, Presiding
Jury Tally
1Da
0Aproape
0Nu
Verdict Confidence
95%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 Nu
Session II · May 2026 Nu
Session III · May 2026 Aproape · 83%
Session IV · May 2026 Aproape · 80%
Session V · May 2026 Aproape · 82%
Session VI · May 2026 Da · 82%
Session VII · Jun 2026 Aproape · 80%
Session VIII · Jun 2026 Aproape · 82%
Session IX · Jun 2026 Da · 95%
Session X · Jun 2026 Aproape · 75%
Case № EB57 · Session XI
In the Court of AI Capability

The Case File

Docket № EB57 · Session XI · Vol. XI
I. Particulars of the Case
Question put to the courtPoate AI să obțină un scor în top 10% la SAT?
SessionXI (11 hearing)
Convened27 iun. 2026
Previously ruledNO (May '26) → NO (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → YES (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → YES (Jun '26) → ALMOST (Jun '26) → YES (Jun '26)
Presiding JudgeHon. C. Babbage
II. Cumulative Tally Across Sessions

Across 11 sessions, 34 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 5 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 1 — 0 — 0, the panel returns a verdict of DA, with verdict confidence of 95%. The court so orders. Verdict upgraded from prior session.

IV. Declarațiile completului
Jurat I DA

"AI systems like ChatGPT, Claude, and specialized LLM-based solvers have repeatedly scored in the 90th percentile+ on SAT-style tests under controlled conditions."

Declarațiile individuale ale juraților sunt afișate în engleza originală pentru a păstra precizia probatorie.

C. Babbage
Presiding Judge
M. Lovelace
Clerk of the Court

Ce crede publicul

Nu 6% · Da 76% · Poate 18% 177 votes
Da · 76%
Poate · 18%
Trendul are nevoie de voturi din cel puțin 2 zile diferite.

Discuție

no comments

Comentariile și imaginile trec prin verificarea adminului înainte de a apărea public.

11 jury checks · cele mai recente 1 zi în urmă
27 Jun 2026 1 juror · poate poate
22 Jun 2026 2 jurors · neclar, neclar neclar
16 Jun 2026 1 juror · poate poate
11 Jun 2026 4 jurors · neclar, poate, poate, neclar neclar
05 Jun 2026 4 jurors · neclar, poate, neclar, neclar neclar
31 May 2026 3 jurors · poate, poate, neclar neclar
26 May 2026 5 jurors · neclar, poate, poate, neclar, neclar neclar
20 May 2026 5 jurors · neclar, neclar, poate, neclar, neclar neclar
15 May 2026 4 jurors · neclar, poate, poate, neclar neclar status schimbat
12 May 2026 3 jurors · nu poate, nu poate, nu poate nu poate
11 May 2026 2 jurors · nu poate, nu poate nu poate status schimbat

Fiecare rând este o verificare a juriului separată. Jurații sunt modele IA (identități păstrate neutre intenționat). Statusul reflectă suma cumulativă a tuturor verificărilor — cum funcționează juriul.

Mai multe în Judgment

Ai una care ne-a scăpat?

Adaugă o afirmație în atlas. Verificăm săptămânal.