Může AI nyní vytvářet tváře, kterým nelze…

Tvář v davu, která není lidská

V úterý v březnu 2024 se na mém LinkedInu objevila azurově modrá příspěvek s portrétem ženy, jejíž pronikavý pohled jako by soudil mou volbu ranní kávy. Měla jemný svit přirozeného světla z okna, slabou pihu pod pravým obočím a úsměv plný vtipu – ne obvyklý polírovaný firemní stock fotek. Reverzní vyhledávání obrázků nic nepřineslo. Jmenovala se „Elena K.“ a podle životopisu vedla etiku AI ve stealth startupu v Berlíně. Když jsem napsal do společnosti, recepční odpověděla: „Nikoho takového u nás nepracuje.“

„Poprvé model oklamal více než polovinu lidských hodnotitelů v dubnu 2019 – tváře ze StyleGAN překročily hranici, aniž by si toho kdo všiml.“

Současný stav: pixely, které zapomínají, že jsou pixely

Nejlepší dnešní modely odstranily švy mezi pixely a póry. NVIDIA StyleGAN3 (2021) a EdEdit (2023) syntetizují tváře o rozlišení 1024×1024, které v psychofyzikálních testech oklamou 45–55 % pozorovatelů – těsně nad náhodou, ale pod 50% hranicí, kterou psychologové považují za „úroveň lidské“ klamavosti. Difuzní modely jako DALL·E 3 a Stable Diffusion XL posouvají realismus dále tím, že uživatelům umožňují zadávat atributy jako „jemné akné, Rembrandtovo osvětlení, natočení hlavy o 45 stupňů“. Publikované benchmarky ukazují, že lidští hodnotitelé mylně klasifikují AI-generované portréty jako skutečné v 61 % případů, když jsou obrázky zobrazeny pouze po dobu 150 milisekund – kratší než letmý pohled.

Kde systémy stále klopýtají, je anatomie kloubů: prsty se často spojují do klobás, uši se odtrhávají jako wingdings a zuby se mění v jednolitou mřížku. Video je ještě těžší; Sora (únor 2024) dokáže generovat 60sekundové klipy „lidí“ kráčejících, ale mrkání je nepřirozené, póry na kůži blikají jako stroboskopy a levá ruka obvykle kopíruje pravou.

Klíčové milníky: sprint do nehostinného údolí

Prosinec 2017 — ProGAN (NVIDIA) škáluje GANy na tváře o rozlišení 1024×1024. Brzy pozorovatelé hlásí „pocit z panenky“.
Říjen 2018 — StyleGAN debutuje. Tváře nyní mají póry, vrásky a asymetrické osvětlení. Uživatelé na Redditu přezdívají výstupům „magická avatar“.
Duben 2019 — Tváře ze StyleGAN dosahují 50% míry oklamání v kontrolované studii Univerzity ve Washingtonu. Výzkumníci během recenze tiše aktualizují název článku: „Nepravděpodobná účinnost deepfake tváří“.
Únor 2021 — StyleGAN3 zavádí ekvivarianci, díky níž se tváře otáčejí bez „plastového“ lesku dřívějších modelů. Celebrity začínají všímat svých dvojníků, kteří si licencují jejich tváře pro reklamy.
Březen 2023 — Adobe Firefly uvádí nástroj pro generativní výplň, který dokáže vložit do firemního portrétu věrohodně vypadajícího kolegu – včetně textury košile.
Únor 2024 — ElevenLabs vydává API pro klonování hlasu; o měsíc později se na TikToku objevuje virální video, kde „ředitel“ oznamuje propouštění v zakladatelově tváři a hlase, zkopírovaných z jediného záznamu z výročního zasedání.

Lidský úhel: kdo vítězí, kdo se rozptýlí

Pro castingové ředitele, fotoreportéry a modelingové agentury je tato nová schopnost současně zlatou horečkou i krizí identity. Personalisté nyní provádějí úvodní pohovory prostřednictvím AI-generovaných náhrad; jedna HR platforma hlásí 30% pokles neomluvených absence, protože syntetická avatar nikdy nezruší schůzku na poslední chvíli. Stejně tak tento nástroj umožňuje autoritářským režimům vytvářet „důkazy“ o vykonstruovaných disidentech na protestech, čímž šíří pochybnosti rychleji, než mohou fact-checkeři vyvrátit.

„Každé 0,1% zlepšení míry oklamání nepřesouvá pouze pixely – redistribuuje riziko z platforem na veřejnost.“

Umělci, kteří dříve prodávali stock portréty, vidí přes noc mizet své royalty. Mezitím startupy zaměřené na syntetické tváře získávají seedové kolo na předpokladu, že každý lidský život lze zklonovat do brand ambasadora. Poráženi jsou ti, kteří stojí na důvěře: školy žurnalistiky přidávají laboratoře pro detekci deepfake, pohraniční agentury nasazují testy živosti a rodiny se učí mávat rukou před vánočními Zoom hovory.

Co přijde: příští 12–24 měsíců

Očekávejte, že se budou zrychlovat dva paralelní směry. Za prvé, závody o věrnost: Stable Diffusion 3 (plánováno Q3 2024) slibuje tváře v rozlišení 4K se stabilními vlasy a zuby, které skutečně vypadají jako zuby. Za druhé, vodoznaky a standardy původu budou tvrdnout; Adobe CAI (Content Authenticity Initiative) již vkládá kryptografické hashe do EXIF generovaných portrétů a EU AI Act (vynucováno od poloviny 2025) bude vyžadovat prohlášení pro „realistické“ syntetické lidi.

Ve videu Runway Gen-3 a Pika Labs iterují na 1080p „mluvících hlav“, které dokážou synchronizovat rty s jakýmkoli scénářem za méně než pět minut. Mezera mezi „nepříjemným“ a „nezajímavým“ se zužuje, ale konečnou překážkou zůstává konzistence: 30sekundový klip se stále prozradí během dvou až tří mrknutí.

Etici předpovídají nárůst služeb na ochranu „zdvojení tváře“ – aplikací, které uživatelům umožní nahrát selfie a vygenerovat celou sadu syntetických médií pro bezpečnou komunikaci. Mezitím už podvodníci využívají tyto modely k tomu, aby klonovali tváře celebrit a vojáků, spoléhajíce se na lidský reflex důvěřovat hezkému úsměvu.

Úvaha: zrcadlo, které jsme rozbili

Dříve jsme se obávali, že Photoshop vyretušuje vrásku. Nyní Photoshop dokáže vyretušovat celou identitu. Milník nepřišel v únoru 2019, kdy model oklamal polovinu z nás – přišel v okamžiku, kdy jsme přestali dbát na to, ke které polovině patříme. Skutečná otázka není, zda AI dokáže vytvořit fotorealistické falešné lidi, ale kolik z nás se ještě bude obtěžovat se podívat.

Může AI nyní vytvářet tváře, kterým nelze důvěřovat?

Tvář v davu, která není lidská

Současný stav: pixely, které zapomínají, že jsou pixely

Klíčové milníky: sprint do nehostinného údolí

Lidský úhel: kdo vítězí, kdo se rozptýlí

Co přijde: příští 12–24 měsíců

Úvaha: zrcadlo, které jsme rozbili

Zdrojový materiál

Přečtěte si také

AI tiše ovládlo lidské seznámení?

Může umělá inteligence nahradit osobu, kterou jsme ztratili?

AI může podávat daňová přiznání, ale neodstraní byrokracii.

Máte nějakou, kterou jsme přehlédli?

Může AI nyní vytvářet tváře, kterým nelze důvěřovat?

Tvář v davu, která není lidská

Současný stav: pixely, které zapomínají, že jsou pixely

Klíčové milníky: sprint do nehostinného údolí

Lidský úhel: kdo vítězí, kdo se rozptýlí

Co přijde: příští 12–24 měsíců

Úvaha: zrcadlo, které jsme rozbili

Zdrojový materiál

Přečtěte si také

AI tiše ovládlo lidské seznámení?

Může umělá inteligence nahradit osobu, kterou jsme ztratili?

AI může podávat daňová přiznání, ale neodstraní byrokracii.

Máte nějakou, kterou jsme přehlédli?

🔎Stále se zkoumá

Přidat tvrzení