Umí AI číst ze rtů z tichého videa ?
Hlasujte — pak si přečtěte, co zjistil náš editor a AI modely.
AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.
Background
Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.
Navrhnout štítek
Chybí pojem k tomuto tématu? Navrhněte ho a admin to posoudí.
Stav naposledy zkontrolován June 30, 2026.
Galerie
Umí AI číst ze rtů z tichého videa?
Existují omezené ukázky — ale porota nebyla jednomyslná.
Příslušná porota uznala pozoruhodný pokrok v systémech pro čtení ze rtů, které mají funkční ukázky a omezenou přesnost slovní zásoby, ale shledala, že jejich dosah je stále příliš úzký pro širokou spolehlivost. Bez nesouhlasu a bez naprostého odmítání se rozdělili pouze v otázce, jak daleko technologie pokročila, nikoli zda vůbec dorazila. Rozsudek je jeden z opatrného úžasu, který si stále hledá své místo. Čtení ze rtů z tichého videa stojí na prahu slibů, avšak zůstává jen těsně za dveřmi.
The jury acknowledged remarkable progress in lip-reading systems, with working demos and limited-vocabulary accuracy, but found their reach still too narrow for broad reliability. With no dissenters and no outright denials, they split only on how far the technology has come, not whether it has arrived. The verdict is one of cautious wonder still testing its footing. Lip-reading from silent video stands at the threshold of promise, yet lingers just shy of the door.
But the data is real.
The Case File
Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 0 — 3 — 0, the panel returns a verdict of TéMěř, with verdict confidence of 83%. The court so orders.
"Lip reading models exist but accuracy varies"
"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."
"Working demos exist but accuracy varies"
Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.
Co si myslí publikum
Ne 35% · Ano 43% · Možná 22% 23 votesDiskuze
no comments⚖ 11 jury checks · nejnovější před 4 dny
Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.