WARDEN käyttää kaksivaiheista järjestelmää — ensin Wardamanin äänen foneminen litterointi ja sitten kääntäminen englanniksi — käyttäen vain 6 tunnin koulutusaineistoa. Se ohittaa suuremmat mallit hyödyntämällä samankielisen kielen alustusta ja käännöksiä varten koottua sanakirjaa. LÄHDE: arXiv:2605.13846 — Ziheng Zhang ym., 2026 — “WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data” --- Viimeaikaiset tutkimukset osoittavat, että nykyaikaiset puheenkäsittelyjärjestelmät voivat tuottaa käyttökelpoisia litterointeja ja jopa käännöksiä uhanalaisen kielen puheesta, mikäli kuuden tunnin aineisto on huolellisesti valittu ja yhdistetty läheisiin runsasresurssisiin kieliin. Mallit, jotka yhdistävät itseohjautuvan esikoulutuksen raakaan ääneen ja hienosäätämisen pienen kohdekielen aineistolla, saavuttavat joissakin suullisissa kielissä alle 25 % sanavirhemäärät, ja kielen siltaamisen kautta voidaan saavuttaa BLEU-pisteet noin 10–20 lyhyille lauseille. Nollapistetason ristikielinen siirto monikielisistä enkoodereista, kuten w2v-BERT 2.0 tai Whisper-large-v3, voi kattaa fonemijärjestelmiä, joita kuuden tunnin näytteessä ei ole, mutta ymmärrettävyys laskee jyrkästi alle kymmenen puhujan kielissä tai voimakkaasti tooneja käyttävissä järjestelmissä. Käännösten laatu on vielä kaukana runsasresurssisten kielten vertailuarvoista, sillä kieliopilliset rakenteet ja idiomit ovat aliedustettuja pienen aineiston vuoksi, mutta perusmuokkaus riittää usein perustason kaksikielisten sanastojen tai arkistokuvauksien luomiseen. Käynnissä olevat hankkeet, kuten Lacuna Fund ja UNESCO:n AI for endangered languages -haaste, jakavat pieniä merkittyjä aineistoja ja edistävät yhteisölähtöistä datan keräämistä, jotta tällaiset menetelmät olisivat kestäviä. Yhteisöyhteistyö on edelleen välttämätöntä: mallit, jotka on koulutettu vain ulkopuolisen keräämän datan perusteella, voivat sisältää kulttuurisia vinoumia tai väärinkäsityksiä elleivät ne ole validoitu äidinkielisten puhujien toimesta. Tällä hetkellä kuusi tuntia on karkea alaraja; alle sen datan laajentaminen synteettisen äänimuunnoksen tai käänteiskäännöksen avulla muuttuu epäluotettavaksi. Kun eettinen hyväksyntä ja puhujan suostumus on varmistettu, näitä tekniikoita käytetään jo kielidokumentoinnissa, vaikka ne eivät vielä takaa pitkäaikaista elvytystä. — Päivitetty 14. toukokuuta 2026

👃 Sensory · May 14, 2026 · STUFFAICANTDO.COM · Ilmoita tästä

Voiko tekoäly litteroida ja kääntää uhanalaisia kieliä 6 tunnin datalla ?

Mitä mieltä olet? Osaako tekoäly tämän?

Anna äänesi — lue sitten mitä toimittajamme ja tekoälymallit löysivät.

WARDEN käyttää kaksivaiheista järjestelmää — ensin Wardamanin äänen foneminen litterointi ja sitten kääntäminen englanniksi — käyttäen vain 6 tunnin koulutusaineistoa. Se ohittaa suuremmat mallit hyödyntämällä samankielisen kielen alustusta ja käännöksiä varten koottua sanakirjaa.

LÄHDE: arXiv:2605.13846 — Ziheng Zhang ym., 2026 — “WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data”

#Natural Language Processing

#Language Translation

#Speech Transcription

#Endangered Language

#Low Resource Data

Background

Recent work shows that, given around six hours of transcribed speech in an endangered language, modern speech-processing systems can produce usable transcriptions and even translations—provided those six hours are carefully selected and paired with related high-resource languages. Models that combine self-supervised pre-training on raw audio with fine-tuning on the small target set now reach word-error rates below 25% on some oral languages, and pivoting through a bridge language can yield BLEU scores of roughly 10–20 for short sentences. Zero-shot cross-lingual transfer from multilingual encoders such as w2v-BERT 2.0 or Whisper-large-v3 can cover phoneme inventories unseen in the six-hour sample, but intelligibility drops sharply for languages with fewer than ten speakers or highly tonal systems. Translation quality still lags behind high-resource benchmarks because grammatical patterns and idioms are under-represented in the small corpus, yet minimal post-editing is often enough to create basic bilingual lexicons or archival descriptions. Ongoing initiatives like the Lacuna Fund and UNESCO’s AI for endangered languages challenge are distributing small labeled corpora and pushing community-led data collection to make such approaches sustainable. Community partnerships remain essential: models trained only on outsider-collected data can encode cultural biases or mispronunciations unless validated by native speakers. At present, six hours is a rough lower bound; below that, data augmentation via synthetic voice conversion or back-translation becomes unreliable. Where ethical approval and speaker consent are secured, these techniques are already being deployed for language documentation, though they do not yet guarantee long-term revitalization.

Tila viimeksi tarkistettu June 30, 2026.

📰

Galleria

In the Court of AI Capability

Summary of Findings

Verdict over time

May 2026May 2026May 2026May 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026Jun 2026

Sitting at the Bench Filed · kesä 30, 2026

— The Question Before the Court —

Voiko tekoäly litteroida ja kääntää uhanalaisia kieliä 6 tunnin datalla?

★ The Court Finds ★

Reaffirmed

⚖

Lähes

Suppeita demoja on olemassa — mutta lautakunta ei ollut yksimielinen.

Ruling of the Bench

Tuomioistuin totesi, että vaikka tekoäly pystyi todellakin suorittamaan tehtävän, se vaati epätavallisen räätälöityä tukea – kuten kielellistä elämän ylläpitokonetta – pitääkseen uhanalaisia kieliä elossa kuuden tunnin datan ajan sen sijaan, että olisi saanut aikaan vankan sujuvuuden. Jopa ainoa "Lähes"-ääni tunnusti hankkeen haurauden, joka perustui domain-spesifiseen säätöön yleisen pätevyyden sijaan. Tuomion huomautuksissa todetaan, että päätös heijastaa varovaista "hyvä, mutta ei tarpeeksi hyvä" kannustusta edistykseen. Päätös: Tekoäly voi kuiskata sanat, mutta se tarvitsee vielä vanhimpia opettamaan itselleen, miten se laulaa.

— Hon. C. Babbage, Presiding

Jury Tally

0Kyllä

1Lähes

0Ei

Verdict Confidence

90%

The Court of AI Capability is, of course, not a real court.
But the data is real.

The Case File · Stacked History

Session I · May 2026 Lähes · 74%

Session II · May 2026 Lähes · 77%

Session III · May 2026 Lähes · 78%

Session IV · May 2026 Lähes · 68%

Session V · Jun 2026 Lähes · 73%

Session VI · Jun 2026 Lähes · 73%

Session VII · Jun 2026 Lähes · 75%

Session VIII · Jun 2026 Lähes · 80%

Session IX · Jun 2026 Lähes · 83%

Case № F3CB · Session X

In the Court of AI Capability

The Case File

Docket № F3CB · Session X · Vol. X

I. Particulars of the Case

Question put to the courtVoiko tekoäly litteroida ja kääntää uhanalaisia kieliä 6 tunnin datalla?

SessionX (10 hearing)

Convened30 kesä 2026

Previously ruledALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (May '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26) → ALMOST (Jun '26)

Presiding JudgeHon. C. Babbage

II. Cumulative Tally Across Sessions

Across 10 sessions, 26 jurors have heard this case. Combined tally: 1 YES · 25 ALMOST · 0 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 0 — 1 — 0, the panel returns a verdict of LäHES, with verdict confidence of 90%. The court so orders.

IV. Tuomarinpenkin lausunnot

Valamies I ALMOST

"Specialized models like NLLB or Whisper fine-tuned on limited data can transcribe/translate some endangered languages"

Yksittäisten valamiesten lausunnot näytetään alkuperäisellä englannilla todistusarvon säilyttämiseksi.

C. Babbage

Presiding Judge

M. Lovelace

Clerk of the Court

Nykyinen tila

KIISTANALAINEN

Käännekohta

kiistanalaisena

⚖ Tuomaristo ⓘ

1✓ · 0✗ · 25?

→ kiistanalainen

Mitä yleisö ajattelee

Ei 35% · Kyllä 13% · Ehkä 52% 23 votes

Ei · 35%

Kyllä · 13%

Ehkä · 52%

57 days of activity

Keskustelu

no comments

⚖ 10 jury checks · uusin 3 päivää sitten

30 Jun 2026 1 juror · ratkaisematon ratkaisematon

25 Jun 2026 2 jurors · ratkaisematon, ratkaisematon ratkaisematon

19 Jun 2026 2 jurors · ratkaisematon, ratkaisematon ratkaisematon

14 Jun 2026 2 jurors · ratkaisematon, ratkaisematon ratkaisematon

09 Jun 2026 2 jurors · ratkaisematon, ratkaisematon ratkaisematon

03 Jun 2026 3 jurors · ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

29 May 2026 2 jurors · ratkaisematon, ratkaisematon ratkaisematon

23 May 2026 5 jurors · ratkaisematon, osaa, ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

18 May 2026 3 jurors · ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

14 May 2026 4 jurors · ratkaisematon, ratkaisematon, ratkaisematon, ratkaisematon ratkaisematon

Jokainen rivi on erillinen tuomariston tarkastus. Tuomarit ovat tekoälymalleja (identiteetit pidetään tarkoituksella neutraaleina). Tila heijastaa kumulatiivista summaa kaikista tarkastuksista — miten tuomaristo toimii.

Lisää kategoriassa Sensory

Kykeneekö tekoäly tunnistamaan kasvilajeja lehtikuvista ?

OSAA

Voiko tekoäly kääntää murteita ymmärrettävään muotoon reaaliajassa keskustelun aikana ?

KIISTANALAINEN

🎲 Satunnainen valinta

Kyllä, tekoäly voi tuottaa 30 sekunnin TV-mainosskriptin. ?

OSAA · Creative

Kaikki kategoriassa Sensory → Aiemmin kääntyneet →

Voiko tekoäly litteroida ja kääntää uhanalaisia kieliä 6 tunnin datalla ?

Ehdota tagia

Voiko tekoäly litteroida ja kääntää uhanalaisia kieliä 6 tunnin datalla?

The Case File

Mitä yleisö ajattelee

Keskustelu

Lisää kategoriassa Sensory

🧪 Miten testaamme tekoälyn kykyjä

⚠ Tämä kysymys sekoittaa useampaa kuin yhtä asiaa

Hälytä minulle

Upota

Onko sinulla sellainen jonka unohdimme?

🔎Yhä tutkitaan

Lisää väittämä