Hur vi poängsätter
Jurymetodik
Hur en AI-panel betygsätter varje förmågepåstående och hur de individuella rösterna kombineras till en enda dom.
⚖ Vad är juryn?
Varje ämne på sajten (t.ex. "Kan AI översätta yoruba korrekt?") granskas av en roterande panel av AI-modeller — mellan 3 och 7 per kontroll, från olika modellfamiljer och leverantörer. Den här panelen kallar vi juryn.
Vi publicerar avsiktligt inte vilka modeller som sitter i en viss kontroll och namnger dem aldrig i offentliga domar. Poängen med juryn är att fånga konsensus från oberoende resonemangssystem, inte att marknadsföra varumärken eller bjuda in till manipulation. Internt kan admin granska vilken modell som gav vilken dom, för transparens.
🗳️ Vad varje jurymedlem gör
Varje jurymedlem får samma prompt:
- Läs påståendet (t.ex. "Kan AI komponera en fuga i Bachs stil?")
- Ge en enordsdom: KAN, KAN INTE eller OAVGJORT.
- Ge en mening som motivering till domen.
- Om domen är KAN, uppskatta månad och år då förmågan först pålitligt uppstod.
Varje jurymedlem svarar oberoende. Ingen ser de andras domar. Det undviker flockeffekten som skulle uppstå om en modell ankrade resten.
📊 Hur domar kombineras
Ett påståendes status (KAN / KAN INTE / OMTVISTAT) avgörs av den kumulativa sammanräkningen av varje jurydom som någonsin registrerats — inte enbart av senaste kontrollen. När fler kontroller samlas över veckor jämnar sammanräkningen ut brus från enskilda paneler.
Reglerna, i ordning:
- Behöver minst 2 domar. En enskild jurymedlem kan inte vända en status — ämnet förblir OMTVISTAT tills en andra jurymedlem säger sitt.
- Enhälligt vinner direkt. Om alla jurymedlemmar är överens (t.ex. 3 av 3 säger KAN INTE) fastställs domen omedelbart — ingen tvetydighet att lösa.
- Annars avgör 80% enighet. När minst 3 domar samlats vänder domen åt det håll som passerar 80%-tröskeln. 11 säger KAN, 1 säger KAN INTE → KAN (91%).
- Under 80% = OMTVISTAT. Om panelen inte når 80%+ förblir ämnet OMTVISTAT, vilket är ett ärligt svar i sig — det betyder att experterna verkligen är oense.
🔄 Hur ofta juryn kör
Juryn kör kontinuerligt. De mest föråldrade ämnena (längst tid sedan senaste kontroll) granskas först. Varje kontroll skriver en permanent rad i granskningsloggen längst ner på varje ämnessida med antal deltagande jurymedlemmar och dagens domsfördelning.
Eftersom AI-förmågor ändras månad till månad är en dom inte ett engångsbeslut — det är det aktuella, rullande samförståndet. Ett ämne som var KAN INTE i mars kan slå om till KAN i juni, och granskningsloggen bevarar historiken.
🧑⚖️ Publikröster vs. jurydomar
Publikfältet ("Vad publiken tycker") och juryns dom är två separata signaler — de påverkar inte varandra.
- Publikröster är mänskliga åsikter, användbara för att se var den populära intuitionen skiljer sig från expertbedömningen.
- Juryns domar är sanningskällan för statusetikeen KAN / KAN INTE / OMTVISTAT.
När människor och juryn är oense är det redaktionellt intressant — ofta avslöjar det en framväxande förmåga publiken inte hunnit ikapp eller en hypepåstående juryn inte köper.
🤔 Varför inte namnge AI:erna?
Att namnge jurymedlemmar skapar problem vi vill undvika:
- Hejaklack för leverantörer — "modell X säger Y!" gör sajten till en marknadsföringskanal.
- Riktad manipulation — när folk vet vilka modeller som dömer kan prompts och innehåll trimmas för att lura specifika modeller.
- Varumärkesbias i din läsning — du kanske litar eller misstror en dom efter vilken logga som avgav den, istället för konsensus.
Att behandla jurymedlemmar som en anonym panel håller fokus på domen, inte rösten.
Senast uppdaterad maj 2026