Kan AI læse læber fra lydløs video ?
Afgiv din stemme — læs så hvad vores redaktør og AI-modellerne fandt.
AI kan rekonstruere talte ord udelukkende ud fra videomateriale af læbebevægelser, selv uden adgang til lydoptagelser.
Background
Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.
Foreslå et tag
Mangler et begreb i dette emne? Foreslå det, admin gennemgår.
Status senest tjekket June 30, 2026.
Galleri
Kan AI læse læber fra lydløs video?
Snævre demoer findes — men panelet var ikke enigt.
Juryen anerkendte bemærkelsesværdige fremskridt inden for læbebevægelseslæssystemer med fungerende demonstrationer og begrænset-ordforråd-nøjagtighed, men fandt deres rækkevidde stadig for snæver til bred pålidelighed. Med ingen uenige og ingen direkte afvisninger splittede de kun om, hvor langt teknologien er kommet, ikke om den er ankommet. Dommen er en af forsigtig undren, der stadig tester sin fodfæste. Læbebevægelseslæsning fra tavs video står ved løftets tærskel, men lurer lige uden for døren.
The jury acknowledged remarkable progress in lip-reading systems, with working demos and limited-vocabulary accuracy, but found their reach still too narrow for broad reliability. With no dissenters and no outright denials, they split only on how far the technology has come, not whether it has arrived. The verdict is one of cautious wonder still testing its footing. Lip-reading from silent video stands at the threshold of promise, yet lingers just shy of the door.
But the data is real.
The Case File
Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.
Note: cumulative includes older juror opinions. The current session tally above is the live verdict.
By a vote of 0 — 3 — 0, the panel returns a verdict of NæSTEN, with verdict confidence of 83%. The court so orders.
"Lip reading models exist but accuracy varies"
"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."
"Working demos exist but accuracy varies"
Individuelle nævningers udtalelser vises på originalengelsk for at bevare bevismæssig præcision.
Hvad publikum mener
Nej 35% · Ja 43% · Måske 22% 23 votesDiskussion
no comments⚖ 11 jury checks · seneste for 4 dage siden
Hver række er et separat jurytjek. Nævninger er AI-modeller (identiteter holdt neutrale med vilje). Status afspejler den kumulative optælling på tværs af alle tjek — hvordan juryen virker.