La IA puede reconstruir palabras habladas únicamente a partir de imágenes de vídeo de los movimientos de los labios, incluso sin acceso a grabaciones de audio. --- Los sistemas actuales de IA pueden reconstruir el habla inteligible a partir de vídeo mudo de los movimientos de la boca de un hablante mediante el entrenamiento de modelos profundos en grandes conjuntos de datos de vídeo mudo emparejado y audio correspondiente. Arquitecturas recientes como Wav2Lip, AV-HuBERT y VCA-GAN logran una alta precisión en lectura de labios en condiciones controladas, pero aún tienen dificultades con el habla rápida, hablantes superpuestos y oclusiones. Los mejores sistemas igualan o superan el rendimiento humano en lectura de labios en conjuntos de datos de referencia como LRS2 y LRS3, y se están adaptando para comunicación asistencial e interfaces seguras. Sin embargo, la robustez en escenarios del mundo real, con poca luz o vistas de perfil sigue siendo un desafío activo de investigación. — Enriched 12 de mayo de 2026 · Fuente: preimpresión de arXiv "Reconocimiento Visual del Habla Usando un Marco de Aprendizaje Profundo Multimodal" — https://arxiv.org/abs/2305.11541

👃 Sensory · May 11, 2026 · STUFFAICANTDO.COM · Marcar esto

¿Puede la IA leer labios a partir de un video silencioso ?

¿Qué opinas? ¿Puede la IA hacer esto?

Vota — luego lee lo que encontró nuestro editor y los modelos de IA.

La IA puede reconstruir palabras habladas únicamente a partir de imágenes de vídeo de los movimientos de los labios, incluso sin acceso a grabaciones de audio.

#Deep Learning

#Image Analysis

#Lip Reading

#Speech Reconstruction

#Silent Video

Background

Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.

Estado verificado por última vez en June 30, 2026.

📰

Galería

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · jun. 30, 2026

— The Question Before the Court —

¿Puede la IA leer labios a partir de un video silencioso?

★ The Court Finds ★

Reaffirmed

⚖

Casi

Existen demostraciones limitadas — pero el panel no fue unánime.

Ruling of the Bench

El jurado reconoció un progreso notable en los sistemas de lectura de labios, con demostraciones funcionales y precisión en vocabulario limitado, pero consideró que su alcance sigue siendo demasiado estrecho para una confiabilidad amplia. Sin disidentes ni negaciones rotundas, solo discreparon en cuánto ha avanzado la tecnología, no en si ha llegado. El veredicto es uno de cautelosa admiración que aún prueba su terreno. La lectura de labios a partir de videos silenciosos está en el umbral de una promesa, pero se mantiene justo a las puertas de ella.

— Hon. E. Dijkstra-Patel, Presiding

Jury Tally

0Sí

3Casi

0No

Verdict Confidence

83%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 No

Session II · May 2026 Sí

Session III · May 2026 Casi · 80%

Session IV · May 2026 Casi · 82%

Session V · May 2026 Casi · 78%

Session VI · Jun 2026 Casi · 79%

Session VII · Jun 2026 Casi · 73%

Session VIII · Jun 2026 Casi · 81%

Session IX · Jun 2026 Casi · 83%

Session X · Jun 2026 Casi · 85%

Case № BE8B · Session XI

In the Court of AI Capability

The Case File

Docket № BE8B · Session XI · Vol. XI

I. Particulars of the Case

Question put to the court¿Puede la IA leer labios a partir de un video silencioso?

SessionXI (11 hearing)

Convened30 jun. 2026

Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. E. Dijkstra-Patel

II. Cumulative Tally Across Sessions

Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 3 — 0, the panel returns a verdict of CASI, with verdict confidence of 83%. The court so orders.

IV. Declaraciones del tribunal

Jurado I ALMOST

"Lip reading models exist but accuracy varies"

Jurado II ALMOST

"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."

Jurado III ALMOST

"Working demos exist but accuracy varies"

Las declaraciones individuales de los jurados se muestran en su inglés original para preservar la precisión probatoria.

E. Dijkstra-Patel

Presiding Judge

M. Lovelace

Clerk of the Court

Estado actual

DISPUTADO

Punto de inflexión

en contienda

⚖ Jurado ⓘ

12✓ · 3✗ · 20?

→ disputado

Lo que el público piensa

No 35% · Sí 43% · Quizás 22% 23 votes

No · 35%

Sí · 43%

Quizás · 22%

53 days of activity

Discusión

no comments

⚖ 11 jury checks · más reciente hace 4 días

30 Jun 2026 3 jurors · indeciso, indeciso, indeciso indeciso

24 Jun 2026 1 juror · indeciso indeciso

19 Jun 2026 3 jurors · indeciso, indeciso, puede indeciso

13 Jun 2026 4 jurors · puede, puede, indeciso, indeciso indeciso

08 Jun 2026 2 jurors · puede, indeciso indeciso

03 Jun 2026 5 jurors · indeciso, puede, indeciso, indeciso, indeciso indeciso

28 May 2026 3 jurors · puede, indeciso, indeciso indeciso

23 May 2026 3 jurors · puede, indeciso, indeciso indeciso

17 May 2026 4 jurors · puede, indeciso, indeciso, indeciso indeciso

14 May 2026 4 jurors · puede, puede, puede, puede puede estado cambiado

11 May 2026 3 jurors · no puede, no puede, no puede no puede estado cambiado

Cada fila es una comprobación de jurado independiente. Los jurados son modelos de IA (identidades mantenidas neutras a propósito). El estado refleja el recuento acumulado en todas las comprobaciones — cómo funciona el jurado.

Más en Sensory

¿Puede la IA traducir dialectos regionales a un idioma estándar en tiempo real durante una conversación en vivo ?

DISPUTADO

¿Puede la IA hornear pan que sepa como el de la abuela ?

DISPUTADO

🎲 Selección aleatoria

¿Puede la IA crear un personaje en un entorno de realidad virtual que pueda generar confianza con un usuario humano con el tiempo ?

DISPUTADO · Relational

Todo en Sensory → Previamente volteado →

¿Puede la IA leer labios a partir de un video silencioso ?

Sugerir una etiqueta

¿Puede la IA leer labios a partir de un video silencioso?

The Case File

Lo que el público piensa

Discusión

Más en Sensory

🧪 Cómo probamos las capacidades de la IA

⚠ Esta pregunta mezcla más de una cosa

Alerta

Insertar

¿Nos faltó uno?

🔎Aún investigando

Añadir una afirmación