Umí AI číst ze rtů z tichého videa ?
Hlasujte — pak si přečtěte, co zjistil náš editor a AI modely.
AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.
Background
Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.
Navrhnout štítek
Chybí pojem k tomuto tématu? Navrhněte ho a admin to posoudí.
Stav naposledy zkontrolován June 24, 2026.
Galerie
Umí AI číst ze rtů z tichého videa?
Existují omezené ukázky — ale porota nebyla jednomyslná.
Po přezkoumání důkazů porota zjistila, že i když je odezírání ze tichého videa technicky možné, jeho přesnost zůstává v čemkoli jiném než v ideálních podmínkách nejistá. Jediný porotce, který hlasoval „Téměř“, poukázal na začínající modely, které se potýkají s přízvuky, špatným osvětlením nebo rychlými mluvčími. Rozsudek zní „Téměř“, s nadějnou připomínkou, že dnešní potíže jsou zítřejšími titulky. Náš verdikt: Modely pro odezírání mohou zachytit slovo, ale stále jim uniká věta.
After reviewing the evidence, the jury found that while lip-reading from silent video is technically possible, its accuracy remains shaky in anything but ideal conditions. The lone juror voting "Almost" pointed to fledgling models that stumble on accents, poor lighting, or quick speakers. Verdict for the "Almost," with the hopeful reminder that today’s stumbles are tomorrow’s subtitles. Our ruling: Lip-reading models can catch a word, but still miss the sentence.
But the data is real.
The Case File
Across 10 sessions, 32 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 0 — 1 — 0, the panel returns a verdict of TéMěř, with verdict confidence of 85%. The court so orders.
"Lip-reading models exist but are unreliable outside controlled settings."
Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.
Co si myslí publikum
Ne 35% · Ano 43% · Možná 22% 23 votesDiskuze
no comments⚖ 10 jury checks · nejnovější před 4 dny
Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.
Další v Sensory
Může AI detekovat určité nemoci pohledem na obrazy kůže ?
Může umělá inteligence vytvořit virtuální realitu simulující čich a chuť realistickým způsobem, která umožní uživatelům prozkoumávat a interagovat s virtuálním prostředím způsobem, který je ponořenější ?
Může umělá inteligence identifikovat vzácné genetické poruchy z fotografií obličeje ?