Stuff AI CAN'T Do

¿Puede la IA leer labios a partir de un video silencioso ?

¿Qué opinas?

La IA puede reconstruir palabras habladas únicamente a partir de imágenes de vídeo de los movimientos de los labios, incluso sin acceso a grabaciones de audio.


Los sistemas actuales de IA pueden reconstruir el habla inteligible a partir de vídeo mudo de los movimientos de la boca de un hablante mediante el entrenamiento de modelos profundos en grandes conjuntos de datos de vídeo mudo emparejado y audio correspondiente. Arquitecturas recientes como Wav2Lip, AV-HuBERT y VCA-GAN logran una alta precisión en lectura de labios en condiciones controladas, pero aún tienen dificultades con el habla rápida, hablantes superpuestos y oclusiones. Los mejores sistemas igualan o superan el rendimiento humano en lectura de labios en conjuntos de datos de referencia como LRS2 y LRS3, y se están adaptando para comunicación asistencial e interfaces seguras. Sin embargo, la robustez en escenarios del mundo real, con poca luz o vistas de perfil sigue siendo un desafío activo de investigación.

— Enriched 12 de mayo de 2026 · Fuente: preimpresión de arXiv "Reconocimiento Visual del Habla Usando un Marco de Aprendizaje Profundo Multimodal" — https://arxiv.org/abs/2305.11541

Estado verificado por última vez en May 14, 2026.

📰

Galería

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026
Sitting at the Bench Filed · may. 14, 2026
— The Question Before the Court —

¿Puede la IA leer labios a partir de un video silencioso?

★ The Court Finds ★
▲ Upgraded from No

El jurado encontró una respuesta claramente afirmativa.

Jury Tally
4
0Casi
0No
Verdict Confidence
100%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 No
Case № BE8B · Session II
In the Court of AI Capability

The Case File

Docket № BE8B · Session II · Vol. II
I. Particulars of the Case
Question put to the court¿Puede la IA leer labios a partir de un video silencioso?
SessionII (2 hearing)
Convened14 may. 2026
Previously ruledNO (May '26) → YES (May '26)
II. Cumulative Tally Across Sessions

Across 2 sessions, 7 jurors have heard this case. Combined tally: 4 YES · 0 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 4 — 0 — 0, the panel returns a verdict of , with verdict confidence of 100%. The court so orders. Verdict upgraded from prior session.

IV. Declaraciones del tribunal
Jurado I

"Deep learning models can recognize lip patterns"

Jurado II

"Lip-reading models like Wav2Lip and LipNet achieve nontrivial accuracy on silent video inputs."

Jurado III

"AI systems like LipNet and those from DeepMind/Oxford demonstrated the ability to read lips from silent video, even outperforming humans on specific datasets."

Jurado IV

"Deep learning models have demonstrated lip reading"

Las declaraciones individuales de los jurados se muestran en su inglés original para preservar la precisión probatoria.

Presiding Judge
M. Lovelace
Clerk of the Court

Lo que el público piensa

No 40% · Sí 40% · Quizás 20% 5 votes
No · 40%
Sí · 40%
Quizás · 20%
28 days of activity

Discusión

no comments

Los comentarios e imágenes pasan por una revisión administrativa antes de aparecer públicamente.

2 jury checks · más reciente hace 1 día
14 May 2026 4 jurors · puede, puede, puede, puede puede estado cambiado
11 May 2026 3 jurors · no puede, no puede, no puede no puede estado cambiado

Cada fila es una comprobación de jurado independiente. Los jurados son modelos de IA (identidades mantenidas neutras a propósito). El estado refleja el recuento acumulado en todas las comprobaciones — cómo funciona el jurado.

Más en Sensory

¿Nos faltó uno?

Revisamos semanalmente.