AI pystyy rekonstruoimaan puhutut sanat pelkästään videomateriaalista, jossa näkyy huulten liikkeet, jopa ilman äänitallenteiden käyttöä. --- Nykyiset tekoälyjärjestelmät pystyvät rekonstruoimaan ymmärrettävää puhetta hiljaisesta videosta, jossa näkyy puhujan suun liikkeet, kouluttamalla syviä malleja suurilla aineistoilla, jotka koostuvat hiljaisesta videosta ja vastaavasta äänestä. Viimeisimmät arkkitehtuurit, kuten Wav2Lip, AV-HuBERT ja VCA-GAN, saavuttavat korkean huulilukutarkkuuden kontrolloiduissa olosuhteissa, mutta kamppailevat edelleen nopean puheen, päällekkäisten puhujien ja peittävien esteiden kanssa. Parhaat järjestelmät vastaavat tai ylittävät ihmisen huulilukusuorituksen vertailuaineistoissa, kuten LRS2 ja LRS3, ja niitä sovelletaan apuvälinekommunikaatiossa sekä turvallisissa käyttöliittymissä. Kuitenkin robustisuus todellisissa olosuhteissa, heikossa valaistuksessa tai sivuprofiilinäkymissä on edelleen aktiivinen tutkimushaaste. — Päivitetty 12. toukokuuta 2026 · Lähde: arXiv esijulkaisu ”Visual Speech Recognition Using a Multi-modal Deep Learning Framework” — https://arxiv.org/abs/2305.11541

👃 Sensory · May 11, 2026 · STUFFAICANTDO.COM · Ilmoita tästä

Voiko tekoäly lukea huulia hiljaisesta videosta ?

Mitä mieltä olet? Osaako tekoäly tämän?

Anna äänesi — lue sitten mitä toimittajamme ja tekoälymallit löysivät.

AI pystyy rekonstruoimaan puhutut sanat pelkästään videomateriaalista, jossa näkyy huulten liikkeet, jopa ilman äänitallenteiden käyttöä.

#Deep Learning

#Image Analysis

#Lip Reading

#Speech Reconstruction

#Silent Video

Background

Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.

Tila viimeksi tarkistettu June 30, 2026.

📰

Galleria

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · kesä 30, 2026

— The Question Before the Court —

Voiko tekoäly lukea huulia hiljaisesta videosta?

★ The Court Finds ★

Reaffirmed

⚖

Lähes

Suppeita demoja on olemassa — mutta lautakunta ei ollut yksimielinen.

Ruling of the Bench

Jury myönsi huomattavaa edistystä huuliltalukujärjestelmissä, joissa oli toimivia demonstraatioita ja rajoitetun sanaston tarkkuutta, mutta katsoi niiden soveltuvuuden olevan edelleen liian kapea laajaan luotettavuuteen. Ilman eriäviä mielipiteitä tai täysin kielteisiä vastaväitteitä he jakoivat näkemyksensä ainoastaan siitä, kuinka pitkälle teknologia on edennyt, eivätkä siitä, onko se saavuttanut tavoitteensa. Tuomio on varovaisen ihailun kannatus, joka vielä koettelee jalansijaansa. Huuliltaluku hiljaisesta videosta seisoo lupauksen kynnyksellä, mutta viipyy juuri oven ulkopuolella.

— Hon. E. Dijkstra-Patel, Presiding

Jury Tally

0Kyllä

3Lähes

0Ei

Verdict Confidence

83%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Ei

Session II · May 2026 Kyllä

Session III · May 2026 Lähes · 80%

Session IV · May 2026 Lähes · 82%

Session V · May 2026 Lähes · 78%

Session VI · Jun 2026 Lähes · 79%

Session VII · Jun 2026 Lähes · 73%

Session VIII · Jun 2026 Lähes · 81%

Session IX · Jun 2026 Lähes · 83%

Session X · Jun 2026 Lähes · 85%

Case № BE8B · Session XI

In the Court of AI Capability

The Case File

Docket № BE8B · Session XI · Vol. XI

I. Particulars of the Case

Question put to the courtVoiko tekoäly lukea huulia hiljaisesta videosta?

SessionXI (11 hearing)

Convened30 kesä 2026

Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. E. Dijkstra-Patel

II. Cumulative Tally Across Sessions

Across 11 sessions, 35 jurors have heard this case. Combined tally: 12 YES · 20 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 3 — 0, the panel returns a verdict of LäHES, with verdict confidence of 83%. The court so orders.

IV. Tuomarinpenkin lausunnot

Valamies I ALMOST

"Lip reading models exist but accuracy varies"

Valamies II ALMOST

"Lip-reading from silent video works for limited vocabularies and controlled conditions but not broadly reliably."

Valamies III ALMOST

"Working demos exist but accuracy varies"

Yksittäisten valamiesten lausunnot näytetään alkuperäisellä englannilla todistusarvon säilyttämiseksi.

E. Dijkstra-Patel

Presiding Judge

M. Lovelace

Clerk of the Court

Nykyinen tila

KIISTANALAINEN

Käännekohta

kiistanalaisena

⚖ Tuomaristo ⓘ

12✓ · 3✗ · 20?

→ kiistanalainen

Mitä yleisö ajattelee

Ei 35% · Kyllä 43% · Ehkä 22% 23 votes

Ei · 35%

Kyllä · 43%

Ehkä · 22%

53 days of activity

Keskustelu

no comments

⚖ 11 jury checks · uusin 4 päivää sitten

30 Jun 2026 3 jurors · ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

24 Jun 2026 1 juror · ratkaisematon ratkaisematon

19 Jun 2026 3 jurors · ratkaisematon, ratkaisematon, osaa ratkaisematon

13 Jun 2026 4 jurors · osaa, osaa, ratkaisematon, ratkaisematon ratkaisematon

08 Jun 2026 2 jurors · osaa, ratkaisematon ratkaisematon

03 Jun 2026 5 jurors · ratkaisematon, osaa, ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

28 May 2026 3 jurors · osaa, ratkaisematon, ratkaisematon ratkaisematon

23 May 2026 3 jurors · osaa, ratkaisematon, ratkaisematon ratkaisematon

17 May 2026 4 jurors · osaa, ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

14 May 2026 4 jurors · osaa, osaa, osaa, osaa osaa tila muuttui

11 May 2026 3 jurors · ei osaa, ei osaa, ei osaa ei osaa tila muuttui

Jokainen rivi on erillinen tuomariston tarkastus. Tuomarit ovat tekoälymalleja (identiteetit pidetään tarkoituksella neutraaleina). Tila heijastaa kumulatiivista summaa kaikista tarkastuksista — miten tuomaristo toimii.

Lisää kategoriassa Sensory

Voiko tekoäly tunnistaa kuvien kohteita ihmisen tasoisen tarkkuuden mukaan ?

OSAA

Kykeneekö tekoäly kirjoittamaan puhutun englannin puhtaasta äänestä yli 95 % tarkkuudella ?

OSAA

🎲 Satunnainen valinta

Voiko tekoäly opettaa lasta puhumaan eri kieliä päivittäisen vuorovaikutuksen kautta ?

KIISTANALAINEN · Ethical

Kaikki kategoriassa Sensory → Aiemmin kääntyneet →

Voiko tekoäly lukea huulia hiljaisesta videosta ?

Ehdota tagia

Voiko tekoäly lukea huulia hiljaisesta videosta?

The Case File

Mitä yleisö ajattelee

Keskustelu

Lisää kategoriassa Sensory

🧪 Miten testaamme tekoälyn kykyjä

⚠ Tämä kysymys sekoittaa useampaa kuin yhtä asiaa

Hälytä minulle

Upota

Onko sinulla sellainen jonka unohdimme?

🔎Yhä tutkitaan

Lisää väittämä