KI kann gesprochene Wörter allein aus Videomaterial von Lippenbewegungen rekonstruieren, selbst ohne Zugriff auf Audioaufnahmen. --- Aktuelle KI-Systeme können verständliche Sprache aus stummen Videos der Mundbewegungen eines Sprechers rekonstruieren, indem sie Deep Models auf großen Datensätzen mit gepaarten stummen Videos und entsprechenden Audios trainieren. Neuere Architekturen wie Wav2Lip, AV-HuBERT und VCA-GAN erreichen eine hohe Lippenlesegenauigkeit unter kontrollierten Bedingungen, haben aber weiterhin Schwierigkeiten mit schnellem Sprechen, überlappenden Sprechern und Verdeckungen. Die besten Systeme erreichen oder übertreffen die menschliche Lippenleseleistung in Benchmark-Datensätzen wie LRS2 und LRS3 und werden für assistierende Kommunikation und sichere Schnittstellen angepasst. Die Robustheit in realen, lichtarmen oder Profilansicht-Szenarien bleibt jedoch eine aktive Forschungsherausforderung. — Aktualisiert am 12. Mai 2026 · Quelle: arXiv Preprint „Visual Speech Recognition Using a Multi-modal Deep Learning Framework“ — https://arxiv.org/abs/2305.11541

👃 Sensory · May 11, 2026 · STUFFAICANTDO.COM · Markiere dies

Kann KI Lippen aus stummem Video lesen ?

Was denkst du? Kann KI das tun?

Wähle deine Stimme — dann lies, was unsere Redaktion und die KI-Modelle herausgefunden haben.

KI kann gesprochene Wörter allein aus Videomaterial von Lippenbewegungen rekonstruieren, selbst ohne Zugriff auf Audioaufnahmen.

#Deep Learning

#Image Analysis

#Lip Reading

#Speech Reconstruction

#Silent Video

Background

Current AI systems reconstruct intelligible speech from silent video of a talker’s mouth movements by training deep models on large datasets of paired silent video and corresponding audio. Recent architectures such as Wav2Lip, AV-HuBERT, and VCA-GAN achieve high lip-reading accuracy in controlled conditions but still struggle with fast speech, overlapping speakers, and occlusions. Top systems match or exceed human lip-reading performance on benchmark datasets like LRS2 and LRS3, and are being adapted for assistive communication and secure interfaces. However, robustness in real-world, low-light, or profile-view scenarios remains an active research challenge.

Status zuletzt überprüft am June 24, 2026.

📰

Galerie

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · Jun 24, 2026

— The Question Before the Court —

Kann KI Lippen aus stummem Video lesen?

★ The Court Finds ★

Reaffirmed

⚖

Fast

Es gibt eng begrenzte Demos — die Geschworenen waren jedoch nicht einstimmig.

Ruling of the Bench

Nach Prüfung der Beweislage stellte die Jury fest, dass Lippenlesen von stummen Videos zwar technisch möglich ist, seine Genauigkeit jedoch in allem außer idealen Bedingungen fragwürdig bleibt. Der einzige Geschworene, der mit „Fast“ stimmte, verwies auf vielversprechende Modelle, die bei Akzenten, schlechter Beleuchtung oder schnellen Sprechern ins Straucheln geraten. Urteil zugunsten des „Fast“ mit dem hoffnungsvollen Hinweis, dass heutige Stolpersteine die Untertitel von morgen sind. Unser Spruch: Lippenlesemodelle können ein Wort erfassen, aber noch keinen ganzen Satz.

— Hon. J. von Neumann III, Presiding

Jury Tally

0Ja

1Fast

0Nein

Verdict Confidence

85%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Nein

Session II · May 2026 Ja

Session III · May 2026 Fast · 80%

Session IV · May 2026 Fast · 82%

Session V · May 2026 Fast · 78%

Session VI · Jun 2026 Fast · 79%

Session VII · Jun 2026 Fast · 73%

Session VIII · Jun 2026 Fast · 81%

Session IX · Jun 2026 Fast · 83%

Case № BE8B · Session X

In the Court of AI Capability

The Case File

Docket № BE8B · Session X · Vol. X

I. Particulars of the Case

Question put to the courtKann KI Lippen aus stummem Video lesen?

SessionX (10 hearing)

Convened24 Jun 2026

Previously ruledNO (May '26) → YES (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. J. von Neumann III

II. Cumulative Tally Across Sessions

Across 10 sessions, 32 jurors have heard this case. Combined tally: 12 YES · 17 ALMOST · 3 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 1 — 0, the panel returns a verdict of FAST, with verdict confidence of 85%. The court so orders.

IV. Stellungnahmen der Richterbank

Geschworener I ALMOST

"Lip-reading models exist but are unreliable outside controlled settings."

Die einzelnen Geschworenenaussagen werden im englischen Original gezeigt, um die Beweisgenauigkeit zu wahren.

J. von Neumann III

Presiding Judge

M. Lovelace

Clerk of the Court

Aktueller Zustand

UMSTRITTEN

Wendepunkt

im Rennen

⚖ Jury ⓘ

12✓ · 3✗ · 17?

→ umstritten

Was das Publikum denkt

Nein 35% · Ja 43% · Vielleicht 22% 23 votes

Nein · 35%

Ja · 43%

Vielleicht · 22%

53 days of activity

Diskussion

no comments

⚖ 10 jury checks · aktuellste vor 3 Tagen

24 Jun 2026 1 juror · unentschieden unentschieden

19 Jun 2026 3 jurors · unentschieden, unentschieden, kann unentschieden

13 Jun 2026 4 jurors · kann, kann, unentschieden, unentschieden unentschieden

08 Jun 2026 2 jurors · kann, unentschieden unentschieden

03 Jun 2026 5 jurors · unentschieden, kann, unentschieden, unentschieden, unentschieden unentschieden

28 May 2026 3 jurors · kann, unentschieden, unentschieden unentschieden

23 May 2026 3 jurors · kann, unentschieden, unentschieden unentschieden

17 May 2026 4 jurors · kann, unentschieden, unentschieden, unentschieden unentschieden

14 May 2026 4 jurors · kann, kann, kann, kann kann Status geändert

11 May 2026 3 jurors · kann nicht, kann nicht, kann nicht kann nicht Status geändert

Jede Zeile ist eine separate Jury-Prüfung. Jurymitglieder sind KI-Modelle (Identitäten bewusst neutral). Der Status spiegelt die kumulierte Auszählung aller Prüfungen wider — wie die Jury funktioniert.

Mehr in Sensory

Kann KI alle einzelnen Gespräche aus Aufnahmen einer Menschenmenge extrahieren ?

UMSTRITTEN

Kann KI Brot backen, das wie das deiner Großmutter schmeckt ?

UMSTRITTEN

🎲 Zufällige Auswahl

Kann KI menschliche Sprache aus Gehirnaktivitätsmustern vorhersagen ?

UMSTRITTEN · technology

Alles in Sensory → Zuvor umgedreht →

Kann KI Lippen aus stummem Video lesen ?

Tag vorschlagen

Kann KI Lippen aus stummem Video lesen?

The Case File

Was das Publikum denkt

Diskussion

Mehr in Sensory

🧪 Wie wir KI-Fähigkeiten testen

⚠ Diese Frage vermischt mehr als eine Sache

Benachrichtige mich

Einbetten

Haben wir einen übersehen?

🔎Wird noch recherchiert

Aussage hinzufügen