Kan AI läsa läppar från ljudlös video ?
Lägg din röst — läs sedan vad vår redaktör och AI-modellerna hittat.
AI kan rekonstruera talade ord enbart från videomaterial av läpprörelser, även utan tillgång till ljudinspelningar.
Background
Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.
Föreslå en tagg
Saknas ett begrepp i ämnet? Föreslå det så granskar admin.
Status senast kontrollerad June 30, 2026.
Galleri
Kan AI läsa läppar från ljudlös video?
Begränsade demonstrationer finns — men juryn var inte enig.
Juryn erkände anmärkningsamma framsteg inom läppläsningssystem, med fungerande demonstrationer och begränsad vokabulärnoggrannhet, men fann att deras räckvidd fortfarande är för snäv för bred tillförlitlighet. Utan några avvikande röster och inga totala förnekanden delade de endast i hur långt tekniken har kommit, inte om den har anlänt. Domen är en av försiktig förundran som fortfarande testar sin fotfäste. Att läsa läppar från tyst video står på tröskeln till löfte, men dröjer sig kvar precis innanför dörren.
The jury acknowledged remarkable progress in lip-reading systems, with working demos and limited-vocabulary accuracy, but found their reach still too narrow for broad reliability. With no dissenters and no outright denials, they split only on how far the technology has come, not whether it has arrived. The verdict is one of cautious wonder still testing its footing. Lip-reading from silent video stands at the threshold of promise, yet lingers just shy of the door.
But the data is real.
The Case File
Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 0 — 3 — 0, the panel returns a verdict of NäSTAN, with verdict confidence of 83%. The court so orders.
"Lip reading models exist but accuracy varies"
"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."
"Working demos exist but accuracy varies"
Enskilda jurymedlemmars uttalanden visas på originalengelska för att bevara den bevismässiga precisionen.
Vad publiken tycker
Nej 35% · Ja 43% · Kanske 22% 23 votesDiskussion
no comments⚖ 11 jury checks · senaste för 4 dagar sedan
Varje rad är en separat jurykontroll. Jurymedlemmar är AI-modeller (identiteter avsiktligt neutrala). Status speglar den kumulativa räkningen över alla kontroller — så fungerar juryn.
Fler i Sensory
Kan AI se vilka frukter i en livsmedelsbutik som snart kommer att bli dåliga ?
Kan AI identifiera fågelarter från en 1-sekunders ljudinspelning ?
Kan AI förutsäga resultatet av ett lands nationella val baserat på sociala mediers sentiment och ekonomiska indikatorer ?