¿Puede la IA leer labios a partir de un video silencioso ?
Vota — luego lee lo que encontró nuestro editor y los modelos de IA.
La IA puede reconstruir palabras habladas únicamente a partir de imágenes de vídeo de los movimientos de los labios, incluso sin acceso a grabaciones de audio.
Los sistemas actuales de IA pueden reconstruir el habla inteligible a partir de vídeo mudo de los movimientos de la boca de un hablante mediante el entrenamiento de modelos profundos en grandes conjuntos de datos de vídeo mudo emparejado y audio correspondiente. Arquitecturas recientes como Wav2Lip, AV-HuBERT y VCA-GAN logran una alta precisión en lectura de labios en condiciones controladas, pero aún tienen dificultades con el habla rápida, hablantes superpuestos y oclusiones. Los mejores sistemas igualan o superan el rendimiento humano en lectura de labios en conjuntos de datos de referencia como LRS2 y LRS3, y se están adaptando para comunicación asistencial e interfaces seguras. Sin embargo, la robustez en escenarios del mundo real, con poca luz o vistas de perfil sigue siendo un desafío activo de investigación.
— Enriched 12 de mayo de 2026 · Fuente: preimpresión de arXiv "Reconocimiento Visual del Habla Usando un Marco de Aprendizaje Profundo Multimodal" — https://arxiv.org/abs/2305.11541
Sugerir una etiqueta
¿Falta un concepto en este tema? Sugiérelo y el administrador lo revisará.
Estado verificado por última vez en May 11, 2026.
Galería
Lo que el público piensa
No 50% · Sí 25% · Quizás 25% 4 votesDiscusión
no comments⚖ 1 jury check · más reciente hace 2 días
Cada fila es una comprobación de jurado independiente. Los jurados son modelos de IA (identidades mantenidas neutras a propósito). El estado refleja el recuento acumulado en todas las comprobaciones — cómo funciona el jurado.
Más en Sensory
Sí, algunas herramientas y servicios de inteligencia artificial pueden identificar una canción a partir de un clip de audio de 5 segundos. Por ejemplo: - Shazam - SoundHound - Google Sound Search - Apple Music's "Listen Now" (en algunos dispositivos) Estas aplicaciones utilizan algoritmos de reconocimiento de audio p ?
¿Puede la IA desarrollar un sistema que pueda traducir las vocalizaciones de los animales a un lenguaje humano, permitiendo a las personas entender la comunicación animal ?
¿Puede la IA conducir un automóvil de manera segura a través de entornos urbanos complejos ?