AI może rekonstruować wypowiadane słowa wyłącznie na podstawie materiału wideo z ruchami ust, nawet bez dostępu do nagrań audio. --- Obecne systemy AI potrafią rekonstruować zrozumiałe mowy z cichego wideo mówcy, analizując ruchy ust, szkoląc głębokie modele na dużych zbiorach danych zawierających sparowane ciche wideo i odpowiadające im nagrania audio. Najnowsze architektury, takie jak Wav2Lip, AV-HuBERT i VCA-GAN, osiągają wysoką dokładność odczytywania z ruchu ust w kontrolowanych warunkach, ale nadal mają problemy z szybką mową, nakładającymi się mówcami oraz przesłonięciami. Najlepsze systemy dorównują lub przewyższają ludzkie umiejętności odczytywania z ruchu ust na zbiorach testowych takich jak LRS2 i LRS3, a ich zastosowania są adaptowane do komunikacji wspomagającej oraz bezpiecznych interfejsów. Jednak odporność w realnych warunkach, przy słabym oświetleniu lub widoku z profilu, pozostaje aktywnym wyzwaniem badawczym. — Wzbogacono 12 maja 2026 · Źródło: preprint arXiv „Visual Speech Recognition Using a Multi-modal Deep Learning Framework” — https://arxiv.org/abs/2305.11541

👃 Sensory · May 11, 2026 · STUFFAICANTDO.COM · Zgłoś to

Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku ?

Co o tym myślisz? Czy SI to potrafi?

Oddaj swój głos — potem przeczytaj, co znalazł nasz redaktor i modele SI.

AI może rekonstruować wypowiadane słowa wyłącznie na podstawie materiału wideo z ruchami ust, nawet bez dostępu do nagrań audio.

#Deep Learning

#Image Analysis

#Lip Reading

#Speech Reconstruction

#Silent Video

Background

Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.

Status sprawdzony ostatnio June 24, 2026.

📰

Galeria

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · cze 24, 2026

— The Question Before the Court —

Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku?

★ The Court Finds ★

Reaffirmed

⚖

Prawie

Istnieją wąskie dema — ale skład nie był jednomyślny.

Ruling of the Bench

Po przeanalizowaniu dowodów ława przysięgłych stwierdziła, że choć odczytywanie z ruchu warg z nagrania wideo bez dźwięku jest technicznie możliwe, jego dokładność pozostaje wątpliwa w każdych warunkach poza idealnymi. Jedyny przysięgły głosujący za "Prawie" wskazał na powstające modele, które potykają się o akcenty, słabe oświetlenie lub szybko mówiących osób. Werdykt dla "Prawie", z pełnym nadziei przypomnieniem, że dzisiejsze potknięcia są jutrzejszymi napisami. Nasz wyrok: modele odczytywania ruchu warg mogą złapać słowo, ale nadal przegapić zdanie.

— Hon. J. von Neumann III, Presiding

Jury Tally

0Tak

1Prawie

0Nie

Verdict Confidence

85%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Nie

Session II · May 2026 Tak

Session III · May 2026 Prawie · 80%

Session IV · May 2026 Prawie · 82%

Session V · May 2026 Prawie · 78%

Session VI · Jun 2026 Prawie · 79%

Session VII · Jun 2026 Prawie · 73%

Session VIII · Jun 2026 Prawie · 81%

Session IX · Jun 2026 Prawie · 83%

Case № BE8B · Session X

In the Court of AI Capability

The Case File

Docket № BE8B · Session X · Vol. X

I. Particulars of the Case

Question put to the courtCzy AI potrafi czytać z ruchu warg na filmie bez dźwięku?

SessionX (10 hearing)

Convened24 cze 2026

Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. J. von Neumann III

II. Cumulative Tally Across Sessions

Across 10 sessions, 32 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 1 — 0, the panel returns a verdict of PRAWIE, with verdict confidence of 85%. The court so orders.

IV. Oświadczenia składu sędziowskiego

Przysięgły I ALMOST

"Lip-reading models exist but are unreliable outside controlled settings."

Indywidualne oświadczenia przysięgłych są pokazywane w oryginalnym języku angielskim, by zachować precyzję dowodową.

J. von Neumann III

Presiding Judge

M. Lovelace

Clerk of the Court

Aktualny stan

SPORNE

Punkt zwrotny

w sporze

⚖ Jury ⓘ

12✓ · 3✗ · 17?

→ sporne

Co myśli publiczność

Nie 35% · Tak 43% · Może 22% 23 votes

Nie · 35%

Tak · 43%

Może · 22%

53 days of activity

Dyskusja

no comments

⚖ 10 jury checks · najnowsze 4 dni temu

24 Jun 2026 1 juror · nierozstrzygnięte nierozstrzygnięte

19 Jun 2026 3 jurors · nierozstrzygnięte, nierozstrzygnięte, potrafi nierozstrzygnięte

13 Jun 2026 4 jurors · potrafi, potrafi, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

08 Jun 2026 2 jurors · potrafi, nierozstrzygnięte nierozstrzygnięte

03 Jun 2026 5 jurors · nierozstrzygnięte, potrafi, nierozstrzygnięte, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

28 May 2026 3 jurors · potrafi, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

23 May 2026 3 jurors · potrafi, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

17 May 2026 4 jurors · potrafi, nierozstrzygnięte, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

14 May 2026 4 jurors · potrafi, potrafi, potrafi, potrafi potrafi status zmieniony

11 May 2026 3 jurors · nie potrafi, nie potrafi, nie potrafi nie potrafi status zmieniony

Każdy wiersz to oddzielna kontrola jury. Jurorzy to modele SI (tożsamości celowo neutralne). Status odzwierciedla skumulowane wyniki ze wszystkich kontroli — jak działa jury.

Więcej w Sensory

Czy AI potrafi wyczuć, czy mleko się zepsuło ?

NIE POTRAFI

Czy AI może znaleźć znaczące wzorce w falach mózgowych ?

SPORNE

🎲 Losowy wybór

Czy AI może wyprzedzić ludzkich traderów i wykonywać 90% globalnej objętości rynku akcji bez nadzoru ludzkiego przy użyciu agentów uczenia przez wzmacnianie ?

SPORNE · finance

Wszystkie w Sensory → Wcześniej zmienione →

Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku ?

Zaproponuj tag

Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku?

The Case File

Co myśli publiczność

Dyskusja

Więcej w Sensory

🧪 Jak testujemy zdolności SI

⚠ To pytanie miesza więcej niż jedną rzecz

Powiadom mnie

Osadź

Masz coś, co nam umknęło?

🔎Wciąż badamy

Dodaj stwierdzenie