Stuff AI CAN'T Do

Cómo puntuamos

Metodología del jurado

Cómo un panel de IA valora cada afirmación de capacidad y cómo esos votos individuales se combinan en un único veredicto.

⚖ ¿Qué es el jurado?

Cada tema de este sitio (p. ej. "¿Puede la IA traducir yoruba con precisión?") es revisado por un panel rotativo de modelos de IA — entre 3 y 7 por comprobación, de distintas familias de modelos y distintos proveedores. A este panel lo llamamos el jurado.

No publicamos a propósito qué modelos participan en cada comprobación, y nunca los nombramos en veredictos públicos. El sentido del jurado es captar el consenso de sistemas de razonamiento independientes, no anunciar marcas concretas ni invitar a la manipulación. Internamente, el administrador puede auditar qué modelo dio qué veredicto, por transparencia.

🗳️ Qué hace cada jurado

A cada jurado se le da el mismo prompt:

  1. Lee la afirmación (p. ej. "¿Puede la IA componer una fuga al estilo de Bach?")
  2. Devuelve un veredicto de una palabra: PUEDE, NO PUEDE o INDECISO.
  3. Da una frase de razón para el veredicto.
  4. Si el veredicto es PUEDE, estima el mes y el año en que la capacidad surgió de forma fiable por primera vez.

Cada jurado responde de forma independiente. Ninguno ve los veredictos de los demás. Eso evita el efecto rebaño que aparecería si un modelo arrastrara al resto.

📊 Cómo se combinan los veredictos

El estado de una afirmación (PUEDE / NO PUEDE / DISPUTADO) se decide por el recuento acumulado de todos los veredictos del jurado registrados — no solo por la comprobación más reciente. A medida que se acumulan más comprobaciones a lo largo de las semanas, el recuento suaviza el ruido de cualquier panel concreto.

Las reglas, en orden:

  • Se necesitan al menos 2 veredictos. Un solo jurado no puede cambiar un estado — el tema queda DISPUTADO hasta que un segundo se pronuncie.
  • La unanimidad gana de inmediato. Si todo el jurado coincide (p. ej. 3 de 3 dicen NO PUEDE), el veredicto queda firmado al instante — sin ambigüedad que resolver.
  • Si no, el 80% de acuerdo decide. Una vez acumulados al menos 3 veredictos, el resultado bascula hacia la dirección que cruza el umbral del 80%. 11 dicen PUEDE, 1 dice NO PUEDE → PUEDE (91%).
  • Por debajo del 80% = DISPUTADO. Si el panel no llega al 80%+, el tema queda DISPUTADO, lo que ya es una respuesta honesta — significa que los expertos realmente discrepan.

🔄 Con qué frecuencia se reúne la jurado

El jurado corre de forma continua. Los temas más viejos (con más tiempo desde la última comprobación) se revisan primero. Cada comprobación escribe una fila permanente en el registro de auditoría al pie de cada página de tema, mostrando cuántos jurados participaron y el desglose del veredicto de ese día.

Como las capacidades de IA cambian mes a mes, un veredicto no es un juicio único — es el consenso rodante actual. Un tema que era NO PUEDE en marzo puede pasar a PUEDE en junio, y el registro de auditoría conserva esa historia.

🧑‍⚖️ Votos del público vs. veredictos del jurado

La barra del público ("Lo que piensa el público") y el veredicto del jurado son dos señales separadas — no se influyen entre sí.

  • Los votos del público son opiniones humanas, útiles para ver dónde la intuición popular difiere de la evaluación de los expertos.
  • Los veredictos del jurado son la fuente de verdad de la etiqueta de estado PUEDE / NO PUEDE / DISPUTADO.

Cuando humanos y jurado discrepan, es editorialmente interesante — a menudo aflora una capacidad emergente que el público aún no ha pillado, o una afirmación hype que el jurado no se traga.

🤔 ¿Por qué no nombrar a las IAs?

Nombrar a los jurados crea problemas que queremos evitar:

  • Animadora de proveedores — "¡el modelo X dice Y!" convierte el sitio en un canal de marketing.
  • Manipulación dirigida — en cuanto la gente sepa qué modelos juzgan, los prompts y contenidos pueden afinarse para engañar a unos concretos.
  • Sesgo de marca al leer — podrías confiar o desconfiar de un veredicto según qué logo lo emitió, en lugar de según el consenso.

Tratar a los jurados como un panel anónimo mantiene el foco en el veredicto, no en quien vota.

Última actualización: mayo de 2026

¿Nos faltó uno?

Revisamos semanalmente.