Umí AI číst ze rtů z tichého videa ?
Hlasujte — pak si přečtěte, co zjistil náš editor a AI modely.
AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.
Současné AI systémy dokážou rekonstruovat srozumitelnou řeč ze tichého videa úst mluvčího pomocí hlubokých modelů natrénovaných na velkých datasetech párového tichého videa a odpovídajícího audia. Nedávné architektury jako Wav2Lip, AV-HuBERT a VCA-GAN dosahují vysoké přesnosti čtení ze rtů v kontrolovaných podmínkách, ale stále mají problémy s rychlou řečí, překrývajícími se mluvčími a překážkami. Nejlepší systémy dosahují srovnatelného nebo lepšího výkonu než lidé při čtení ze rtů na benchmarkových datasetech jako LRS2 a LRS3 a jsou adaptovány pro asistivní komunikaci a bezpečná rozhraní. Nicméně robustnost v reálných podmínkách, při slabém osvětlení nebo při pohledu z profilu zůstává aktivní výzkumnou výzvou.
— Zpracováno 12. května 2026 · Zdroj: arXiv preprint „Visual Speech Recognition Using a Multi-modal Deep Learning Framework“ — https://arxiv.org/abs/2305.11541
Navrhnout štítek
Chybí pojem k tomuto tématu? Navrhněte ho a admin to posoudí.
Stav naposledy zkontrolován May 11, 2026.
Galerie
Co si myslí publikum
Ne 50% · Ano 25% · Možná 25% 4 votesDiskuze
no comments⚖ 1 jury check · nejnovější před 2 dny
Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.