Wie wir bewerten
Jury-Methodik
Wie ein KI-Panel jede Fähigkeitsbehauptung bewertet und wie die einzelnen Stimmen zu einem einzelnen Urteil zusammenkommen.
⚖ Was ist die Jury?
Jedes Thema auf dieser Seite (z. B. "Kann KI Yoruba akkurat übersetzen?") wird von einem rotierenden Panel aus KI-Modellen geprüft — zwischen 3 und 7 pro Prüfung, aus verschiedenen Modellfamilien und Anbietern. Dieses Panel nennen wir die Jury.
Wir veröffentlichen bewusst nicht, welche Modelle an einer Prüfung beteiligt sind, und nennen sie nie in öffentlichen Urteilen. Sinn der Jury ist es, den Konsens unabhängiger Argumentations-Systeme festzuhalten, nicht bestimmte Marken zu bewerben oder Manipulation einzuladen. Intern kann der Admin zur Transparenz prüfen, welches Modell welches Urteil abgegeben hat.
🗳️ Was jedes Jurymitglied tut
Jedes Jurymitglied erhält denselben Prompt:
- Lies die Aussage (z. B. "Kann KI eine Fuge im Stil von Bach komponieren?")
- Gib ein Ein-Wort-Urteil ab: KANN, KANN NICHT oder UNENTSCHIEDEN.
- Gib einen einsätzigen Grund für das Urteil an.
- Wenn das Urteil KANN lautet, schätze Monat und Jahr, in dem die Fähigkeit erstmals zuverlässig auftrat.
Jedes Jurymitglied antwortet unabhängig. Keines sieht die Urteile der anderen. Das vermeidet den Herdeneffekt, der entstehen würde, wenn ein Modell die anderen festlegt.
📊 Wie sich Urteile verbinden
Der Status einer Aussage (KANN / KANN NICHT / UMSTRITTEN) ergibt sich aus der kumulierten Zählung aller jemals erfassten Jury-Urteile — nicht nur aus der jüngsten Prüfung. Mit zunehmenden Prüfungen über Wochen glättet die Zählung das Rauschen einzelner Panels.
Die Regeln, der Reihe nach:
- Mindestens 2 Urteile nötig. Ein einzelnes Jurymitglied kann keinen Status umkehren — das Thema bleibt UMSTRITTEN, bis ein zweites Jurymitglied abstimmt.
- Einstimmig gewinnt sofort. Sind sich alle Jurymitglieder einig (z. B. 3-von-3 sagen KANN NICHT), steht das Urteil sofort fest — keine Uneindeutigkeit zu klären.
- Andernfalls entscheidet 80% Übereinstimmung. Sobald mindestens 3 Urteile vorliegen, kippt das Urteil in die Richtung, die die 80%-Schwelle überschreitet. 11 sagen KANN, 1 sagt KANN NICHT → KANN (91%).
- Unter 80% = UMSTRITTEN. Einigt sich das Panel nicht bei 80%+, bleibt das Thema UMSTRITTEN — eine eigene ehrliche Antwort, sie bedeutet, dass die Experten wirklich uneins sind.
🔄 Wie oft die Jury tagt
Die Jury arbeitet kontinuierlich. Themen, deren letzte Prüfung am längsten zurückliegt, werden zuerst geprüft. Jede Prüfung schreibt eine dauerhafte Zeile in das Audit-Log am Ende jeder Themenseite, mit Anzahl der teilnehmenden Jurymitglieder und der Stimmenverteilung des Tages.
Da sich KI-Fähigkeiten von Monat zu Monat ändern, ist ein Urteil kein einmaliges Urteil — es ist der aktuelle rollende Konsens. Ein Thema, das im März KANN NICHT war, kann bis Juni auf KANN umschlagen, und das Audit-Log bewahrt diese Geschichte.
🧑⚖️ Publikumsstimmen vs. Jury-Urteile
Der Publikumsbalken ("Was das Publikum denkt") und das Jury-Urteil sind zwei getrennte Signale — sie beeinflussen sich nicht.
- Publikumsstimmen sind menschliche Meinungen, nützlich um zu sehen, wo die öffentliche Intuition von der Expertenbewertung abweicht.
- Jury-Urteile sind die Wahrheitsquelle für das Status-Label KANN / KANN NICHT / UMSTRITTEN.
Wenn Menschen und Jury uneins sind, ist das redaktionell interessant — oft zeigt sich eine aufkommende Fähigkeit, die das Publikum noch nicht eingeholt hat, oder eine Hype-Behauptung, die die Jury nicht abkauft.
🤔 Warum die KIs nicht benennen?
Jurymitglieder zu benennen schafft Probleme, die wir vermeiden wollen:
- Anbieter-Cheerleading — "Modell X sagt Y!" macht die Seite zu einem Marketingkanal.
- Gezielte Manipulation — sobald Leute wissen, welche Modelle urteilen, können Prompts und Inhalte auf bestimmte Modelle abgestimmt werden.
- Markenvorliebe beim Lesen — du vertraust einem Urteil womöglich nach dem Logo dahinter, statt dem Konsens.
Jurymitglieder als anonymes Panel zu behandeln, hält den Fokus auf dem Urteil, nicht auf dem Abstimmenden.
Zuletzt aktualisiert: Mai 2026