Jak hodnotíme
Metodika poroty
Jak panel AI hodnotí každé tvrzení o schopnosti a jak se ty jednotlivé hlasy spojují do jediného verdiktu.
⚖ Co je porota?
Každé téma na tomto webu (např. „Umí AI přesně překládat jorubštinu?“) hodnotí rotující panel AI modelů — 3 až 7 na kontrolu, z různých rodin modelů a od různých dodavatelů. Tento panel nazýváme porotou.
Záměrně nezveřejňujeme, které modely sedí v dané kontrole, a nikdy je nejmenujeme ve veřejných verdiktech. Smyslem poroty je zachytit konsensus nezávislých uvažujících systémů, ne propagovat konkrétní značky nebo lákat k manipulaci. Interně může admin pro transparentnost auditovat, který model vydal který verdikt.
🗳️ Co dělá každý porotce
Každý porotce dostane stejný prompt:
- Přečtěte si tvrzení (např. „Umí AI složit fugu ve stylu Bacha?“)
- Vraťte jednoslovný verdikt: UMÍ, NEUMÍ nebo NEROZHODNUTO.
- Uveďte jednověté zdůvodnění verdiktu.
- Pokud je verdikt UMÍ, odhadněte měsíc a rok, kdy se schopnost poprvé spolehlivě objevila.
Každý porotce odpovídá nezávisle. Nikdo z nich nevidí verdikty ostatních. Tím se předchází stádnímu efektu, který by vznikl, kdyby jeden model ukotvil ostatní.
📊 Jak se verdikty kombinují
Stav tvrzení (UMÍ / NEUMÍ / SPORNÉ) určuje kumulativní součet všech verdiktů porotců, které kdy byly zaznamenány — ne pouze poslední kontrola. S přibývajícími kontrolami v průběhu týdnů součet vyhlazuje šum jednotlivých panelů.
Pravidla v pořadí:
- Potřebné alespoň 2 verdikty. Jeden porotce nemůže změnit stav — téma zůstává SPORNÉ, dokud se nevyjádří druhý porotce.
- Jednomyslnost vítězí okamžitě. Pokud se shodnou všichni porotci (např. 3 ze 3 říkají NEUMÍ), verdikt je ihned hotov — žádná nejednoznačnost.
- Jinak rozhoduje 80% shoda. Jakmile se nashromáždí alespoň 3 verdikty, verdikt se překlopí směrem, který překročí hranici 80 %. 11 říká UMÍ, 1 říká NEUMÍ → UMÍ (91 %).
- Pod 80 % = SPORNÉ. Pokud se panel neshodne na 80 %+, téma zůstává SPORNÉ — sama o sobě upřímná odpověď, znamená, že odborníci se skutečně neshodnou.
🔄 Jak často porotci zasedají
Porota běží nepřetržitě. Nejstarší témata (nejdéle od poslední kontroly) se kontrolují jako první. Každá kontrola zapíše trvalý řádek do auditního logu na konci stránky tématu se zobrazením počtu zúčastněných porotců a rozložení verdiktu toho dne.
Protože se schopnosti AI mění měsíc co měsíc, verdikt není jednorázový rozsudek — je to aktuální průběžný konsensus. Téma, které v březnu bylo NEUMÍ, se může do června překlopit na UMÍ, a auditní log tu historii uchovává.
🧑⚖️ Hlasy publika vs. verdikty poroty
Lišta publika („Co si myslí publikum“) a verdikt poroty jsou dva oddělené signály — vzájemně se neovlivňují.
- Hlasy publika jsou lidské názory, užitečné pro odhalení míst, kde se populární intuice liší od odborného posouzení.
- Verdikty poroty jsou zdrojem pravdy pro stavový štítek UMÍ / NEUMÍ / SPORNÉ.
Když se lidé a porota neshodnou, je to redakčně zajímavé — často vyplave nová schopnost, kterou veřejnost ještě nezachytila, nebo nafouknuté tvrzení, kterému porota nevěří.
🤔 Proč nepojmenovávat AI?
Jmenování porotců vytváří problémy, kterým se chceme vyhnout:
- Roztleskávání dodavatelů — „model X říká Y!“ dělá z webu marketingový kanál.
- Cílené manipulování — jakmile lidé vědí, které modely soudí, prompty a obsah lze přizpůsobit, aby konkrétní modely oblafnuly.
- Předpojatost vůči značce při čtení — můžete důvěřovat nebo nedůvěřovat verdiktu podle toho, které logo ho vydalo, místo podle konsensu.
Brát porotce jako anonymní panel udržuje pozornost na verdiktu, ne na hlasujícím.
Naposledy aktualizováno květen 2026