KI kann anscheinend keine Uhr lesen – kannst du es besser?
Im Netz macht ein neuer KI-Benchmark die Runde, der scheinbar so ziemlich alle gängigen Modelle ins Schwitzen bringt. Dabei handelt es sich aber nicht etwa um fortgeschrittene Mathematikübungen, sondern um Stoff für Zweitklässler. Die Aufgabe: eine Uhr ablesen.
Mit Clockbench hat Entwickler Alek Safar einen Test geschaffen, bei dem KI-Modelle eine Reihe von generierten Uhren ablesen müssen. Dabei variieren diese in der Form der Zeiger und der Farbe. Manche haben auch römische oder gar keine Ziffern oder sie sind spiegelverkehrt.
Wer das Prinzip einer Uhr wirklich versteht, sollte aber auch mit diesen Uhren einigermassen klarkommen. Natürlich haben auch wir etwas Mühe, ohne Ziffern die genaue Uhrzeit zu sagen, können aber sicher ausschliessen, dass die schwarze Uhr oben z. B. nicht 9 Uhr zeigt. Im Benchmark werden auch noch andere Aufgaben wie das Addieren und Subtrahieren von Stunden oder die Umrechnung in andere Zeitzonen verlangt, doch allein das Ablesen an sich scheint der KI bereits Mühe zu machen.
Das Resultat ist vernichtend, der Mensch schlägt die KI um Längen. Natürlich ist das Ganze auch noch etwas von der Auflösung der Bilder abhängig und ich bin sicher, dass sich die KI auch verbessern wird, wenn man künftig mehr Uhren in die Trainingsdaten packt. Doch das Beispiel zeigt deutlich, dass die Idee von einer «AGI», also einer Künstlichen Allgemein-Intelligenz, von der die grossen Tech-Firmen immer behaupten, sie stehe kurz vor der Tür, vor allem Marketing ist.
Denn auch wenn die KI nun im nächsten Update Uhren lesen kann, finden sich regelmässig neue ähnlich triviale Aufgaben, die sie genauso vergeigt.
Dass man so Patch für Patch schon bald eine allwissende KI haben soll, scheint mir ziemlich optimistisch.
Aber egal, der Grund, weshalb du hier bist, ist ja das Quiz. Ich habe mich vom Benchmark inspirieren lassen und selber ein Quiz mit zehn völlig normalen und sicher nicht zunehmend seltsamen Fragen geschaffen. Diese habe ich jeweils auch ChatGPT-5 gestellt. Finde also heraus, ob auch du die «Human Baseline» hochhalten würdest:
Schlägst du die KI im Uhrlesen?
Im Lesen von analogen Uhren schlagen sich KI-Modelle scheinbar grottig. Deine Chance, mit deiner menschlichen Intelligenz zu glänzen.