AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům. --- Současné AI systémy dokážou rekonstruovat srozumitelnou řeč ze tichého videa úst mluvčího pomocí hlubokých modelů natrénovaných na velkých datasetech párového tichého videa a odpovídajícího audia. Nedávné architektury jako Wav2Lip, AV-HuBERT a VCA-GAN dosahují vysoké přesnosti čtení ze rtů v kontrolovaných podmínkách, ale stále mají problémy s rychlou řečí, překrývajícími se mluvčími a překážkami. Nejlepší systémy dosahují srovnatelného nebo lepšího výkonu než lidé při čtení ze rtů na benchmarkových datasetech jako LRS2 a LRS3 a jsou adaptovány pro asistivní komunikaci a bezpečná rozhraní. Nicméně robustnost v reálných podmínkách, při slabém osvětlení nebo při pohledu z profilu zůstává aktivní výzkumnou výzvou. — Zpracováno 12. května 2026 · Zdroj: arXiv preprint „Visual Speech Recognition Using a Multi-modal Deep Learning Framework“ — https://arxiv.org/abs/2305.11541

👃 Sensory · May 11, 2026 · STUFFAICANTDO.COM · Nahlásit

Umí AI číst ze rtů z tichého videa ?

Co si myslíš? Umí to AI?

Hlasujte — pak si přečtěte, co zjistil náš editor a AI modely.

AI dokáže rekonstruovat mluvená slova pouze z videozáznamu pohybů rtů, a to i bez přístupu k audiozáznamům.

#Deep Learning

#Image Analysis

#Lip Reading

#Speech Reconstruction

#Silent Video

Background

Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.

Stav naposledy zkontrolován June 30, 2026.

📰

Galerie

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · čvn 30, 2026

— The Question Before the Court —

Umí AI číst ze rtů z tichého videa?

★ The Court Finds ★

Reaffirmed

⚖

Téměř

Existují omezené ukázky — ale porota nebyla jednomyslná.

Ruling of the Bench

Příslušná porota uznala pozoruhodný pokrok v systémech pro čtení ze rtů, které mají funkční ukázky a omezenou přesnost slovní zásoby, ale shledala, že jejich dosah je stále příliš úzký pro širokou spolehlivost. Bez nesouhlasu a bez naprostého odmítání se rozdělili pouze v otázce, jak daleko technologie pokročila, nikoli zda vůbec dorazila. Rozsudek je jeden z opatrného úžasu, který si stále hledá své místo. Čtení ze rtů z tichého videa stojí na prahu slibů, avšak zůstává jen těsně za dveřmi.

— Hon. E. Dijkstra-Patel, Presiding

Jury Tally

0Ano

3Téměř

0Ne

Verdict Confidence

83%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Ne

Session II · May 2026 Ano

Session III · May 2026 Téměř · 80%

Session IV · May 2026 Téměř · 82%

Session V · May 2026 Téměř · 78%

Session VI · Jun 2026 Téměř · 79%

Session VII · Jun 2026 Téměř · 73%

Session VIII · Jun 2026 Téměř · 81%

Session IX · Jun 2026 Téměř · 83%

Session X · Jun 2026 Téměř · 85%

Case № BE8B · Session XI

In the Court of AI Capability

The Case File

Docket № BE8B · Session XI · Vol. XI

I. Particulars of the Case

Question put to the courtUmí AI číst ze rtů z tichého videa?

SessionXI (11 hearing)

Convened30 čvn 2026

Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. E. Dijkstra-Patel

II. Cumulative Tally Across Sessions

Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 3 — 0, the panel returns a verdict of TéMěř, with verdict confidence of 83%. The court so orders.

IV. Prohlášení soudců

Porotce I ALMOST

"Lip reading models exist but accuracy varies"

Porotce II ALMOST

"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."

Porotce III ALMOST

"Working demos exist but accuracy varies"

Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.

E. Dijkstra-Patel

Presiding Judge

M. Lovelace

Clerk of the Court

Aktuální stav

SPORNÉ

Bod zlomu

ve sporu

⚖ Porota ⓘ

12✓ · 3✗ · 20?

→ sporné

Co si myslí publikum

Ne 35% · Ano 43% · Možná 22% 23 votes

Ne · 35%

Ano · 43%

Možná · 22%

53 days of activity

Diskuze

no comments

⚖ 11 jury checks · nejnovější před 4 dny

30 Jun 2026 3 jurors · nerozhodnuto, nerozhodnuto, nerozhodnuto nerozhodnuto

24 Jun 2026 1 juror · nerozhodnuto nerozhodnuto

19 Jun 2026 3 jurors · nerozhodnuto, nerozhodnuto, umí nerozhodnuto

13 Jun 2026 4 jurors · umí, umí, nerozhodnuto, nerozhodnuto nerozhodnuto

08 Jun 2026 2 jurors · umí, nerozhodnuto nerozhodnuto

03 Jun 2026 5 jurors · nerozhodnuto, umí, nerozhodnuto, nerozhodnuto, nerozhodnuto nerozhodnuto

28 May 2026 3 jurors · umí, nerozhodnuto, nerozhodnuto nerozhodnuto

23 May 2026 3 jurors · umí, nerozhodnuto, nerozhodnuto nerozhodnuto

17 May 2026 4 jurors · umí, nerozhodnuto, nerozhodnuto, nerozhodnuto nerozhodnuto

14 May 2026 4 jurors · umí, umí, umí, umí umí stav změněn

11 May 2026 3 jurors · neumí, neumí, neumí neumí stav změněn

Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.

Další v Sensory

Může umělá inteligence extrahovat všechny jednotlivé rozhovory z nahrávek davu lidí ?

SPORNÉ

Může umělá inteligence porazit vyškolené lidi v odezírání ze rtů ?

SPORNÉ

🎲 Náhodný výběr

Může umělá inteligence naučit někoho být společnější ?

SPORNÉ · Relational

Vše v Sensory → Dříve překlopeno →

Umí AI číst ze rtů z tichého videa ?

Navrhnout štítek

Umí AI číst ze rtů z tichého videa?

The Case File

Co si myslí publikum

Diskuze

Další v Sensory

🧪 Jak testujeme schopnosti AI

⚠ Tato otázka míchá více než jednu věc

Upozornit mě

Vložit

Máte nějakou, kterou jsme přehlédli?

🔎Stále se zkoumá

Přidat tvrzení