Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku ?
Oddaj swój głos — potem przeczytaj, co znalazł nasz redaktor i modele SI.
AI może rekonstruować wypowiadane słowa wyłącznie na podstawie materiału wideo z ruchami ust, nawet bez dostępu do nagrań audio.
Obecne systemy AI potrafią rekonstruować zrozumiałe mowy z cichego wideo mówcy, analizując ruchy ust, szkoląc głębokie modele na dużych zbiorach danych zawierających sparowane ciche wideo i odpowiadające im nagrania audio. Najnowsze architektury, takie jak Wav2Lip, AV-HuBERT i VCA-GAN, osiągają wysoką dokładność odczytywania z ruchu ust w kontrolowanych warunkach, ale nadal mają problemy z szybką mową, nakładającymi się mówcami oraz przesłonięciami. Najlepsze systemy dorównują lub przewyższają ludzkie umiejętności odczytywania z ruchu ust na zbiorach testowych takich jak LRS2 i LRS3, a ich zastosowania są adaptowane do komunikacji wspomagającej oraz bezpiecznych interfejsów. Jednak odporność w realnych warunkach, przy słabym oświetleniu lub widoku z profilu, pozostaje aktywnym wyzwaniem badawczym.
— Wzbogacono 12 maja 2026 · Źródło: preprint arXiv „Visual Speech Recognition Using a Multi-modal Deep Learning Framework” — https://arxiv.org/abs/2305.11541
Zaproponuj tag
Brakuje pojęcia w tym temacie? Zaproponuj je, a administrator je rozważy.
Status sprawdzony ostatnio May 14, 2026.
Galeria
Czy AI potrafi czytać z ruchu warg na filmie bez dźwięku?
Jury udzieliło jednoznacznie twierdzącej odpowiedzi.
But the data is real.
The Case File
Across 2 sessions, 7 jurors have heard this case. Combined tally: 4 YES · 0 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 4 — 0 — 0, the panel returns a verdict of TAK, with verdict confidence of 100%. The court so orders. Verdict upgraded from prior session.
"Deep learning models can recognize lip patterns"
"Lip-reading models like Wav2Lip and LipNet achieve nontrivial accuracy on silent video inputs."
"AI systems like LipNet and those from DeepMind/Oxford demonstrated the ability to read lips from silent video, even outperforming humans on specific datasets."
"Deep learning models have demonstrated lip reading"
Indywidualne oświadczenia przysięgłych są pokazywane w oryginalnym języku angielskim, by zachować precyzję dowodową.
Co myśli publiczność
Nie 40% · Tak 40% · Może 20% 5 votesDyskusja
no comments⚖ 2 jury checks · najnowsze 1 dzień temu
Każdy wiersz to oddzielna kontrola jury. Jurorzy to modele SI (tożsamości celowo neutralne). Status odzwierciedla skumulowane wyniki ze wszystkich kontroli — jak działa jury.
Więcej w Sensory
Czy AI może identyfikować markery depresji w próbkach pisemnych ?
Czy AI może opracować system tłumaczący wokalizacje zwierząt na język ludzki, umożliwiając ludziom zrozumienie komunikacji zwierząt ?
Czy AI potrafi rozwiązać kostkę Rubika w mniej niż sekundę przy użyciu robota ?