🔥 Hot topics · NIE potrafi · Potrafi · § The Court · Ostatnie zmiany · 📈 Oś czasu · Zapytaj · Artykuły redakcyjne · 🔥 Hot topics · NIE potrafi · Potrafi · § The Court · Ostatnie zmiany · 📈 Oś czasu · Zapytaj · Artykuły redakcyjne
Stuff AI CAN'T Do

Czy AI potrafi identyfikować indywidualne głosy ludzkie w scenariuszu przyjęcia koktajlowego 100 osób, korzystając tylko z ?

Co o tym myślisz?

Gdy 100 osób mówi jednocześnie, czy sztuczna inteligencja potrafi wyłowić głos jednej konkretnej osoby bez żadnych wskazówek przestrzennych ułatwiających wybór? To pytanie bada granice współczesnych modeli separacji mowy, pytając, czy maszyny mogą naśladować ludzką zdolność skupienia się na pojedynczym mówcy wśród gęstego tłumu dźwięków.

Background

Separacja mowy — zadanie polegające na izolowaniu indywidualnych głosów z nakładających się nagrań dźwiękowych — poczyniło szybkie postępy dzięki modelom głębokiego uczenia, takim jak Conv-TasNet, Dual-Path RNN i SepFormer. Systemy te tradycyjnie polegają na wskazówkach przestrzennych (np. kierunku nadejścia) lub wyuczonych osadzeniach mówców, aby rozróżnić nakładające się strumienie mowy. Jednak w scenariuszach wieloosobowych, takich jak „problem przyjęcia koktajlowego”, gdzie może występować 10 lub więcej mówców jednocześnie, wydajność gwałtownie spada z powodu interferencji sygnału i ograniczonych cech dyskryminacyjnych. Benchmarki, takie jak zbiory danych WHAM! i LibriMix, napędzały postęp, jednak najnowocześniejsze modele wciąż mają trudności z więcej niż 5–7 nakładającymi się mówcami bez wskazówek przestrzennych lub wstępnej rejestracji. Ostatnie prace (np. VoiceFilter-Lite, SpEx+) wprowadzają separację uwarunkowaną mówcą przy użyciu nagrań rejestracyjnych, ale wymagają one wcześniejszej znajomości docelowego głosu. Bez wskazówek przestrzennych lub wstępnie nagranych referencji wyzwanie identyfikacji pojedynczego głosu wśród 99 innych pozostaje nierozwiązane w praktycznych ustawieniach. Przeglądy wskazują, że słuchacze ludzcy wykorzystują uwagę odgórną, wysokość dźwięku, barwę i kontekst lingwistyczny — czynniki, których nie w pełni zakodowano w obecnych modelach AI.


Zadanie izolowania głosu docelowego mówcy z mieszanki zawierającej 100 jednoczesnych mówców — często nazywane „problemem przyjęcia koktajlowego” — od dawna stanowi wyzwanie zarówno dla neuronauki, jak i uczenia maszynowego. Wczesne podejścia opierały się na filtrowaniu przestrzennym z wykorzystaniem matryc mikrofonowych, jednak ostatnie badania przesunęły się w kierunku separacji jednokanałowej, opartej na treści, z wykorzystaniem głębokich sieci neuronowych. Nowoczesne systemy często rozpoczynają od krótkoczasowych transformat Fouriera lub wyuczonych spektrogramów i stosują architektury takie jak Conv-TasNet, Dual-Path RNN lub kodery oparte na Transformerach do separacji źródeł. Zbiory danych referencyjnych, takie jak WSJ0-2mix, LibriMix i LRS, zapewniają ustandaryzowane warunki do oceny jakości separacji, zwykle raportując metryki takie jak skaliowo-niezmienniczy stosunek sygnału do zniekształceń (SI-SDR) oraz współczynnik błędu znaków (CER) w zadaniach rozpoznawania. Badania wykazały, że separacja neuronowa może odtworzyć pojedynczy głos z umiarkowaną wiernością w mieszankach 2–10 mówców, jednak wydajność gwałtownie spada wraz ze wzrostem liczby źródeł i większym nakładaniem się. Niektóre modele wykorzystują wyuczone osadzenia mówców (np. x-wektory) do ekstrakcji docelowego mówcy, gdy dostępny jest dźwięk rejestracyjny, podczas gdy podejścia bez rejestracji próbują zidentyfikować głos wyłącznie na podstawie treści. Pozostają otwarte pytania dotyczące generalizacji na nieznaną liczbę mówców, odporności na szum i pogłos oraz stabilności separacji przy szybkiej rotacji mówców.

— Wzbogacono 15 maja 2026 · Źródło: IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022

Status sprawdzony ostatnio July 3, 2026.

📰

Galeria

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026Jul 2026
Sitting at the Bench Filed · lip 3, 2026
— The Question Before the Court —

Czy AI potrafi identyfikować indywidualne głosy ludzkie w scenariuszu przyjęcia koktajlowego 100 osób, korzystając tylko z?

★ The Court Finds ★
▼ Downgraded from Prawie
W badaniu

Jury nie mogło wydać werdyktu na podstawie przedstawionych dowodów.

Ruling of the Bench

Po burzliwej dyskusji ławy przysięgłych nie udało się ogłosić zwycięstwa – jeden z jurorów skinął głową na imponujące postępy w separacji mowy, inny upierał się, że przyjęcie koktajlowe pozostaje nierozwiązaną społecznie pułapką, a pozostali jedynie popijali swoją wyimaginowaną kawę, wpatrując się w sufit. Wypłynął podzielony werdykt: zero za całkowity sukces, jedno ciche „prawie” i jedno stanowcze „nie”, przy czym żadna ze stron nie chciała ustąpić pola. Orzeczenie: „Słyszymy głosy, ale wciąż nie potrafimy rozpoznać, kto mówi.”

— Hon. M. Lovelace, Presiding
Jury Tally
0Tak
1Prawie
1Nie
Verdict Confidence
88%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 Prawie · 77%
Session II · May 2026 Prawie · 80%
Session III · May 2026 Prawie · 78%
Session IV · May 2026 Prawie · 77%
Session V · Jun 2026 In_research · 77%
Session VI · Jun 2026 Prawie · 70%
Session VII · Jun 2026 Prawie · 75%
Session VIII · Jun 2026 In_research · 93%
Session IX · Jun 2026 Prawie · 75%
Case № 4286 · Session X
In the Court of AI Capability

The Case File

Docket № 4286 · Session X · Vol. X
I. Particulars of the Case
Question put to the courtCzy AI potrafi identyfikować indywidualne głosy ludzkie w scenariuszu przyjęcia koktajlowego 100 osób, korzystając tylko z?
SessionX (10 hearing)
Convened3 lip 2026
Previously ruledALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → IN_RESEARCH (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → IN_RESEARCH (Jun '26) → ALMOST (Jun '26) → IN_RESEARCH (Jul '26)
Presiding JudgeHon. M. Lovelace
II. Cumulative Tally Across Sessions

Across 10 sessions, 23 jurors have heard this case. Combined tally: 1 YES · 16 ALMOST · 6 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 1 — 1, the panel returns a verdict of W BADANIU, with verdict confidence of 88%. The court so orders. Verdict downgraded from prior session.

IV. Oświadczenia składu sędziowskiego
Przysięgły I NIE

"No AI system can reliably identify arbitrary individuals in a 100-person cocktail-party scenario with only audio input."

Przysięgły II ALMOST

"State-of-the-art speech separation models exist"

Indywidualne oświadczenia przysięgłych są pokazywane w oryginalnym języku angielskim, by zachować precyzję dowodową.

M. Lovelace
Presiding Judge
M. Lovelace
Clerk of the Court

Co myśli publiczność

Nie 17% · Tak 9% · Może 74% 23 votes
Nie · 17%
Może · 74%
50 days of activity

Dyskusja

no comments

Komentarze i obrazy przechodzą przez weryfikację admina zanim pojawią się publicznie.

10 jury checks · najnowsze 1 dzień temu
03 Jul 2026 2 jurors · nie potrafi, nierozstrzygnięte nierozstrzygnięte
27 Jun 2026 1 juror · nierozstrzygnięte nierozstrzygnięte
22 Jun 2026 2 jurors · nie potrafi, potrafi nierozstrzygnięte
16 Jun 2026 1 juror · nierozstrzygnięte nierozstrzygnięte
11 Jun 2026 2 jurors · nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte
06 Jun 2026 2 jurors · nie potrafi, nierozstrzygnięte nierozstrzygnięte
31 May 2026 3 jurors · nie potrafi, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte
26 May 2026 3 jurors · nie potrafi, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte
20 May 2026 4 jurors · nie potrafi, nierozstrzygnięte, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte
15 May 2026 3 jurors · nierozstrzygnięte, nierozstrzygnięte, nierozstrzygnięte nierozstrzygnięte

Każdy wiersz to oddzielna kontrola jury. Jurorzy to modele SI (tożsamości celowo neutralne). Status odzwierciedla skumulowane wyniki ze wszystkich kontroli — jak działa jury.

Więcej w Sensory

Masz coś, co nam umknęło?

Dodaj stwierdzenie do atlasu. Sprawdzamy co tydzień.