Stuff AI CAN'T Do

Umí AI číst ze rtů z tichého videa ?

Co si myslíš?

AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.


Současné AI systémy dokážou rekonstruovat srozumitelnou řeč ze tichého videa úst mluvčího pomocí hlubokých modelů natrénovaných na velkých datasetech párového tichého videa a odpovídajícího audia. Nedávné architektury jako Wav2Lip, AV-HuBERT a VCA-GAN dosahují vysoké přesnosti čtení ze rtů v kontrolovaných podmínkách, ale stále mají problémy s rychlou řečí, překrývajícími se mluvčími a překážkami. Nejlepší systémy dosahují srovnatelného nebo lepšího výkonu než lidé při čtení ze rtů na benchmarkových datasetech jako LRS2 a LRS3 a jsou adaptovány pro asistivní komunikaci a bezpečná rozhraní. Nicméně robustnost v reálných podmínkách, při slabém osvětlení nebo při pohledu z profilu zůstává aktivní výzkumnou výzvou.

— Zpracováno 12. května 2026 · Zdroj: arXiv preprint „Visual Speech Recognition Using a Multi-modal Deep Learning Framework“ — https://arxiv.org/abs/2305.11541

Stav naposledy zkontrolován May 11, 2026.

📰

Galerie

AI to ZATÍM NEUMÍ. · Nesouhlasíte? pošlete nám důkaz

Co si myslí publikum

Ne 50% · Ano 25% · Možná 25% 4 votes
Ne · 50%
Ano · 25%
Možná · 25%
24 days of activity

Diskuze

no comments

Komentáře a obrázky procházejí kontrolou admina, než se objeví veřejně.

1 jury check · nejnovější před 2 dny
11 May 2026 3 jurors · neumí, neumí, neumí neumí stav změněn

Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.

Další v Sensory

Máte nějakou, kterou jsme přehlédli?

Přidejte tvrzení do atlasu. Kontrolujeme týdně.