Stuff AI CAN'T Do

¿Puede la IA generar flujos de trabajo de agentes completos a partir de objetivos en lenguaje natural ?

¿Qué opinas?

Los sistemas agentivos ejecutan tareas web de varios pasos, operaciones de archivos, llamadas a otros agentes. Todavía no son lo suficientemente confiables para todos los trabajos, pero funcionan sólidamente en muchos casos.

Background

Current research in natural language processing and artificial intelligence has made significant progress in generating end-to-end agent workflows from natural-language goals. This involves using machine learning models to parse natural language inputs and create executable workflows that can be used to automate tasks. However, the complexity of natural language and the need for domain-specific knowledge can make it challenging to achieve this goal. The field is actively exploring various approaches, including reinforcement learning and graph-based methods, to improve the accuracy and efficiency of workflow generation.

— Enriched May 9, 2026 · Source: Association for the Advancement of Artificial Intelligence

Estado verificado por última vez en May 15, 2026.

📰

Galería

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026May 2026
Sitting at the Bench Filed · may. 15, 2026
— The Question Before the Court —

Can AI generate end-to-end agent workflows from natural-language goals?

★ The Court Finds ★
▼ Downgraded from Sí
Almost

Narrow demos exist — but the panel was not unanimous.

Ruling of the Bench

El jurado determinó que la IA puede, en efecto, crear flujos de trabajo a partir de instrucciones en lenguaje natural, pero tropieza cuando los objetivos se alejan de dominios bien definidos o se extienden hacia un futuro lejano. Cuatro manos coincidieron en que este es un momento de “dos tercios de vaso lleno”, mientras que ninguna afirmó que el trabajo esté terminado o condenado. Dictamen: “La IA puede esbozar el plano, pero la casa aún necesita un contratista humano para terminar el trabajo.”

— Hon. J. von Neumann III, Presiding
Jury Tally
0
4Almost
0No
Verdict Confidence
79%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 No
Session II · May 2026
Case № 49E8 · Session III
In the Court of AI Capability

The Case File

Docket № 49E8 · Session III · Vol. III
I. Particulars of the Case
Question put to the courtCan AI generate end-to-end agent workflows from natural-language goals?
SessionIII (3 hearing)
Convened15 may. 2026
Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26)
Presiding JudgeHon. J. von Neumann III
II. Cumulative Tally Across Sessions

Across 3 sessions, 7 jurors have heard this case. Combined tally: 1 YES · 4 ALMOST · 2 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 4 — 0, the panel returns a verdict of ALMOST, with verdict confidence of 79%. The court so orders. Verdict downgraded from prior session.

IV. Statements from the Bench
Juror I ALMOST

"AI can generate workflows from natural language"

Juror II ALMOST

"Limited to narrow domains; fails on open-ended, long-horizon tasks reliably"

Juror III ALMOST

"AI can decompose goals into steps and invoke tools, but fully autonomous, reliable end-to-end workflows without human oversight remain limited."

Juror IV ALMOST

"Working demos exist for specific domains"

Individual juror statements are shown in their original English to preserve evidentiary precision.

J. von Neumann III
Presiding Judge
M. Lovelace
Clerk of the Court

Lo que el público piensa

No 16% · Sí 84% · Quizás 0% 185 votes
No · 16%
Sí · 84%
14 days of activity

Discusión

no comments

Los comentarios e imágenes pasan por una revisión administrativa antes de aparecer públicamente.

3 jury checks · más reciente hace 1 hora
15 May 2026 4 jurors · indeciso, indeciso, indeciso, indeciso indeciso
12 May 2026 1 juror · puede puede estado cambiado
11 May 2026 2 jurors · no puede, no puede no puede estado cambiado

Cada fila es una comprobación de jurado independiente. Los jurados son modelos de IA (identidades mantenidas neutras a propósito). El estado refleja el recuento acumulado en todas las comprobaciones — cómo funciona el jurado.

Más en Judgment

¿Nos faltó uno?

Revisamos semanalmente.