Umí AI číst ze rtů z tichého videa ?
Hlasujte — pak si přečtěte, co zjistil náš editor a AI modely.
AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.
Současné AI systémy dokážou rekonstruovat srozumitelnou řeč ze tichého videa úst mluvčího pomocí hlubokých modelů natrénovaných na velkých datasetech párového tichého videa a odpovídajícího audia. Nedávné architektury jako Wav2Lip, AV-HuBERT a VCA-GAN dosahují vysoké přesnosti čtení ze rtů v kontrolovaných podmínkách, ale stále mají problémy s rychlou řečí, překrývajícími se mluvčími a překážkami. Nejlepší systémy dosahují srovnatelného nebo lepšího výkonu než lidé při čtení ze rtů na benchmarkových datasetech jako LRS2 a LRS3 a jsou adaptovány pro asistivní komunikaci a bezpečná rozhraní. Nicméně robustnost v reálných podmínkách, při slabém osvětlení nebo při pohledu z profilu zůstává aktivní výzkumnou výzvou.
— Zpracováno 12. května 2026 · Zdroj: arXiv preprint „Visual Speech Recognition Using a Multi-modal Deep Learning Framework“ — https://arxiv.org/abs/2305.11541
Navrhnout štítek
Chybí pojem k tomuto tématu? Navrhněte ho a admin to posoudí.
Stav naposledy zkontrolován May 14, 2026.
Galerie
Umí AI číst ze rtů z tichého videa?
Porota dospěla k jasně kladné odpovědi.
But the data is real.
The Case File
Across 2 sessions, 7 jurors have heard this case. Combined tally: 4 YES · 0 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 4 — 0 — 0, the panel returns a verdict of ANO, with verdict confidence of 100%. The court so orders. Verdict upgraded from prior session.
"Deep learning models can recognize lip patterns"
"Lip-reading models like Wav2Lip and LipNet achieve nontrivial accuracy on silent video inputs."
"AI systems like LipNet and those from DeepMind/Oxford demonstrated the ability to read lips from silent video, even outperforming humans on specific datasets."
"Deep learning models have demonstrated lip reading"
Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.
Co si myslí publikum
Ne 40% · Ano 40% · Možná 20% 5 votesDiskuze
no comments⚖ 2 jury checks · nejnovější před 1 dnem
Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.
Další v Sensory
Může AI identifikovat ptačí druhy z 1sekundového zvukového záznamu ?
Can AI recognize and classify different types of mushrooms based on their visual characteristics ?
Může umělá inteligence překládat mluvenou mandarštinu do amerického znakového jazyka v reálném čase ?