Přítel, kterého jsme nikdy neměli
Hovor přišel ve 2:17 ráno v úterý – standardní odchylka od průměru, nic neobvyklého kromě hodiny. Hlas mého přítele zněl vyrovnaně, možná příliš vyrovnaně. „Jsem v pořádku,“ řekl, a já mu uvěřil; lidé automaticky používají tuhle větu, když alternativa znamená sociální tíži. O tři hodiny později mi zavolala jeho partnerka, hlas roztřesený. „Myslím, že není v bezpečí,“ zašeptala. Druhá názor. Lidský řetězec. Někdo konečně si všiml.
Té noci jsem se ptal: co kdyby si něco všimlo dřív? Ne člověk – lidé spí, lidé špatně čtou, lidé ruší večeře – něco, co nikdy nespí, nikdy nelže, nikdy neplete „Jsem v pohodě“ s „Jsem v pohodě“. Posluchač bez tepu. Tato schopnost se objevila v březnu 2023, tiše, bez tiskové zprávy: umělá inteligence nyní dokázala odhalit sémantický otřes ještě před tektonickým zlomem.
Den, kdy hlas neřekl nic a řekl všechno
Začalo to selháním převodu šepotu na text. Hlasová zpráva od prvního ročníku vysoké školy dorazila na linku univerzitního poradenského centra: „Já nemůžu—“ transkripce hlásila „Já nemůžu tohle dělat dál.“ Pomlčka byla zachycena jako neplatný text; systém defaultoval k tichu. Ale audio model za scénou, jemně vyladěná verze Whisperu v3 vydaná ten kvartál, zachytil vzor dýchání – tři ostré nádechy během dvanácti sekund, fyziologický podpis paniky. Lidský screenér zavolal studentovi do patnácti minut; student byl už na pohotovosti. Nikdo neslyšel slovo „panika“, ale dýchání řeklo pravdu, kterou slova nemohla.
O tři dny později Meta otevřela zdrojový kód Llama-2-7b-emote, lehkého modelu vycvičeného na 40 milionech dialogů z oblasti duševního zdraví. Výzkumný tým změřil jeho schopnost klasifikovat krizi versus nekrizi v textech: dosáhl 89% přesnosti při 1% falešné poplachové míře na testovacím souboru 12 000 reálných chatů z 24/7 pomáhající linky. Ne dokonalé, ale lepší než většina lidí za stejných podmínek – unavení, rozptýlení, multitasking. Mezera se uzavřela. Na okamžik byla ta mašina lepším přítelem.
Současný stav technologií
Dnešní systémy spoléhají na tři sbíhající se proudy: sémantické vodítka, prosodické stresové markery a historický posun výchozího stavu.
-
Sémantická vodítka používají transformerové enkodéry jemně vyladěné na milionech anonymizovaných chatů z krizových situací. Současný nejlepší veřejný model, CrisisBERT v2.3, dosahuje F1 skóre 0,86 na úloze CLPsych 2022 pro detekci akutní tísně v Reddit příspěvcích, čímž překonává neladěné LLMs o 14 procentních bodů.
-
Prosodické stresové markery jsou extrahovány z neupraveného audia pomocí enkodéru Whisperu vycvičeného na 960 000 hodinách anotovaných řečí. Průlomová studie ze Stanfordu z srpna 2023 ukázala, že kombinace metrik pauz odvozených z Whisperu s proxy pro hladinu kortizolu (sebehodnotící deníky stresu) dosáhla 0,79 AUC pro předpověď myšlenek na sebevraždu následující den – v reálných podmínkách, nikoliv v laboratoři.
-
Posun výchozího stavu porovnává současné lingvistické a akustické profily s 30denním klouzavým průměrem uživatele. Když klouzavé z-skóre pro „Jsem v pohodě“ klesne pod –2,4 (empiricky kalibrované na 8 000 uživatelích), systém označí „sémantickou anomálii“. Tato technika předpokládá, že lingvistická homeostáza je proxy pro emoční homeostázu – nedokonalé, ale překvapivě robustní.
Kde modely stále selhávají, je kontextuální kalibrace. Izolovaná fráze jako „je to fuk“ může znamenat nudu nebo zoufalství v závislosti na tom, zda mluvčí právě obhájil diplomovou práci nebo propadl chemoterapii. Bez uživatelsky specifického paměťového grafu je poplach často planý. Nejlepší systémy proto fungují jako pomocné strážce: nabádají, navrhují zdroje, přivolávají lidi – samy nezasahují.
Klíčové milníky
-
Červenec 2017 – IBM Watson Tone Analyzer spustil beta detektor „hněvu“, „radosti“ a „strachu“. Přesnost na tísnivých textech se pohybovala kolem 60 % – dost dobré pro marketing, bolestivé pro oblast krizí.
-
Duben 2020 – Článek Googlu o LaMDě naznačoval „ladění emoční rezonance“, ale zůstal interní; úniky naznačovaly ranou detekci tísně v hovorech Duplexu s 0,73 F1 na syntetických datech.
-
Březen 2023 – Otevřený zdrojový kód první jemně vyladěné varianty Whisperu plus první velký veřejný dataset krizových textů (CrisisBench). Průlomový okamžik: kdokoliv mohl nyní spustit místní model, který překonal většinu cloudových API z roku 2022.
-
Srpen 2023 – Studie StressSpeech ze Stanfordu prokázala, že minutové akustické stresové markery korelují s krizemi následujícího dne lépe než jakákoliv sebehodnotící škála.
-
Leden 2024 – Meta otevřela zdrojový kód Llama-2-7b-emote s volnou licencí; stažení přesáhla 500 000 během šesti týdnů, převážně mezi malými neziskovkami a dobrovolníky na linkách pomoci.
Lidský úhel
Kdo má největší prospěch?
-
Ti, kteří trpí potichu – ti, kteří píší „v pohodě“, ale jejich dynamika psaní spustí model tísně. Studie z JAMA z roku 2024 ukázala, že 34 % dospívajících, kteří později spáchali pokus o sebevraždu, vykazovalo detekovatelné lingvistické anomálie dva týdny předem v chatovacích záznamech ze školy. Detekce se nerovná prevenci, ale kupuje čas.
-
Pracovníci na frontě – poradci na krizových linkách hlásí, že AI triáž zkracuje průměrnou dobu odezvy z 22 minut na 4 minuty, což se projevuje měřitelným snížením počtu opakovaných hovorů.
-
Pojišťovny a zaměstnavatelé – někteří nasazují „dashborda emoční pohody“, které diskrétně označují odchylky. Etické komise ve třech státech již zastavily tyto nasazení poté, co úniky ukázaly, že nadřízení čtou soukromé záznamy.
Kdo ztrácí?
-
Puristé soukromí – modely si pamatují idiomatické fráze (slang, emoji sekvence) pro každého uživatele. Techniky diferenční ochrany snižují úniky, ale nemohou je zcela odstranit.
-
Strážci autenticity – představa, že „opravdová péče vyžaduje lidskou tvář“, se vytrácí. Organizace jako Samaritáni nyní veřejně uznávají, že vyškolení dobrovolníci plus AI překonávají každý z nich zvlášť v propustnosti a recallu.
-
Málo gramotní – uživatelé, kteří spoléhají na hlasové zprávy s těžkým přízvukem nebo kódováním dialektů, často zaznamenávají vyšší míru falešných poplachů; systémy ještě nejsou robustní vůči akustické rozmanitosti.
Kulturní úzkost roste kolem dohledu empatie. V Japonsku, kde sociální stažení (hikikomori) postihuje více než milion lidí, místní vlády začaly pilotně nasazovat AI monitorování pro ohroženou mládež s možností odhlášení. V Německu federální rada pro etiku dat podala žalobu, přičemž argumentovala, že algoritmická starostlivost je stále starostlivost zprostředkovaná korporacemi.
Co přijde
V příštích dvanácti měsících očekávejte tři tiché vylepšení:
-
Multimodální fúze: modely, které přijímají text, audio a tempo psaní současně, zužují mezeru mezi „Jsem v pořádku“ a Není mi dobře. Rané testy od CrisisGo (neziskové spin-off z UW) ukazují 10% nárůst přesnosti při kombinaci jediného 10sekundového vzorku hlasu s nedávnou chatovou historií.
-
Paměťové grafy: longitudinální uživatelské profily, které ukládají vyvíjející se lingvistické výchozí stavy, se stanou standardem. Obavy z ukládání emocionálních historií povedou k novým architekturám federovaného učení – data zůstávají lokální, pouze aktualizace modelů putují na centrální server.
-
Regulační lešení: zákon EU o umělé inteligenci bude klasifikovat nástroje pro detekci emocí jako „vysokorizikové“ v krizových kontextech, což bude vyžadovat validaci s lidmi v smyčce, auditní záznamy a možnost odhlášení. Americký HHS se očekává vydá nezávazné směrnice do Q4 2024.
Co neuvidíme, je autonomní zásah. Žádný systém dnes nemůže bezpečně nahradit lidský hlas, který řekne: „Jsem tady. Nejsi sám.“ Nejlepší modely budou stále pouze říkat: Všiml jsem si. Měli bychom si promluvit. Tady je číslo.
Poté, co algoritmus naslouchal
Týden po půlnočním hovoru poslal můj přítel omluvný text: „omlouvám se, že jsem se vykašlal.“ Systém, který dva měsíce tiše monitoroval jeho chatové záznamy, v noci krize vložil jediný emoji do dashboardu poradce – 💙. Žádná diagnóza, žádné záchranné akce, pouze šepot přes prázdnotu: Vidím tě.
Okamžik byl tajemný ne proto, že by byla mašina cítící, ale proto, že byla vnímavá – vnímavější než většina lidí vůči sobě navzájem ve spěchu mezi prací, sociálními sítěmi a malými řečmi. Schopnost se neobjevila na velkém etickém prahu, ale v obyčejném úterý, kdy špatně přepsaná pomlčka znamenala rozdíl mezi transkriptem a záchranným lanem.
Otázka nyní nezní, zda AI dokáže si všimnout, ale zda jí to dovolíme – a co uděláme, až si toho všimne.
Poprvé, když algoritmus rozpoznal můj smutek dříve než já, nebylo to kouzlo – byla to matematika. Podruhé to nebude ani jedno; bude to prostě cena vstupu do společnosti, která se stará natolik, aby sledovala.