Sådan bedømmer vi
Jury-metodologi
Hvordan et AI-panel vurderer hver evne-påstand og hvordan de individuelle stemmer kombineres til én enkelt kendelse.
⚖ Hvad er juryen?
Hvert emne på denne side (fx "Kan AI oversætte yoruba præcist?") gennemgås af et roterende panel af AI-modeller — 3 til 7 pr. tjek, fra forskellige modelfamilier og forskellige leverandører. Vi kalder dette panel for juryen.
Vi udgiver bevidst ikke hvilke modeller der sidder i et givet tjek, og vi navngiver dem aldrig i offentlige kendelser. Pointen med juryen er at indfange konsensus af uafhængige ræsonneringssystemer, ikke at reklamere for bestemte mærker eller invitere til manipulation. Internt kan admin revidere hvilken model der afgav hvilken kendelse for gennemsigtighed.
🗳️ Hvad hver nævning gør
Hver nævning får den samme prompt:
- Læs udsagnet (fx "Kan AI komponere en fuga i Bachs stil?")
- Returnér en ét-ords-kendelse: KAN, KAN IKKE eller UAFKLARET.
- Giv en éns-sætnings begrundelse for kendelsen.
- Hvis kendelsen er KAN, estimer måned og år hvor evnen først pålideligt opstod.
Hver nævning svarer uafhængigt. Ingen af dem ser de andres kendelser. Det undgår flokeffekten man ville få hvis én model forankrede resten.
📊 Hvordan kendelser kombineres
Et udsagns status (KAN / KAN IKKE / OMSTRIDT) afgøres af den samlede optælling af hver eneste nævnings-kendelse der nogensinde er registreret — ikke kun det seneste tjek. Efterhånden som flere tjek hober sig op over uger, jævner optællingen støjen fra et enkelt panel ud.
Reglerne, i rækkefølge:
- Mindst 2 kendelser kræves. Én enkelt nævning kan ikke vende en status — emnet forbliver OMSTRIDT indtil en anden nævning udtaler sig.
- Enstemmighed vinder straks. Hvis alle nævninger er enige (fx 3-af-3 siger KAN IKKE), afgøres kendelsen med det samme — ingen tvetydighed at løse.
- Ellers afgør 80% enighed det. Når mindst 3 kendelser er samlet, vender kendelsen i den retning der krydser 80%-tærsklen. 11 siger KAN, 1 siger KAN IKKE → KAN (91%).
- Under 80% = OMSTRIDT. Hvis panelet ikke når 80%+, forbliver emnet OMSTRIDT — et ærligt svar i sig selv, det betyder at eksperterne virkelig er uenige.
🔄 Hvor ofte nævninger kører
Juryen kører kontinuerligt. De ældste emner (længst siden seneste tjek) gennemgås først. Hvert tjek skriver en permanent række i revisionsloggen nederst på hver emneside, der viser hvor mange nævninger deltog og kendelsesfordelingen den dag.
Fordi AI-evner ændrer sig fra måned til måned, er en kendelse ikke en engangsdom — det er den aktuelle rullende konsensus. Et emne der var KAN IKKE i marts kan vende til KAN inden juni, og revisionsloggen bevarer den historik.
🧑⚖️ Publikumsstemmer vs. jurykendelser
Publikumsbjælken ("Hvad publikum mener") og jurykendelsen er to separate signaler — de påvirker ikke hinanden.
- Publikumsstemmer er menneskelige holdninger, nyttige til at se hvor folkelig intuition afviger fra ekspertvurdering.
- Jurykendelser er sandhedskilden for statuslabelen KAN / KAN IKKE / OMSTRIDT.
Når mennesker og juryen er uenige, er det redaktionelt interessant — ofte afdækker det en spirende evne offentligheden ikke har indhentet endnu, eller en hype-påstand juryen ikke køber.
🤔 Hvorfor ikke navngive AI'erne?
At navngive nævninger skaber problemer vi vil undgå:
- Leverandør-hejra — "model X siger Y!" gør siden til en marketingkanal.
- Målrettet manipulation — når folk ved hvilke modeller der dømmer, kan prompts og indhold finjusteres til at narre bestemte modeller.
- Brand-bias i din læsning — du kan komme til at stole på eller mistro en kendelse ud fra hvilket logo der afgav den, i stedet for konsensus.
At behandle nævninger som et anonymt panel holder fokus på kendelsen, ikke vælgeren.
Senest opdateret maj 2026