Der Release der angeblich supergünstigen KI DeepSeek aus China war ein Schuss vor den Bug der amerikanischen Branchengrössen. Diese reklamierten bisher einen gewaltigen Entwicklungsvorsprung für sich – DeepSeek soll aber bei Logik-, Programmier- und Mathematikaufgaben mindestens ebenbürtig sein.
Und genau das haben wir anhand der Gymi-Aufnahmeprüfung des Kantons Zürich des Jahres 2015 getestet. Es treten gegeneinander an: Die Gratisversion von ChatGPT (4o mini) vs. die Gratisversion von DeepSeek. Die Resultate haben wir anhand des gängigen Notenschlüssels beurteilt. Und es gab einen klaren Sieger.
Weil Brüche nicht einfach so copy-pastet werden können, schreiben wir die Aufgabe um. Und zwar in:
a) «(7min 39s : 17) + (19+ (7/12)) min»
Während DeepSeek die Inkonsequenz bei den Divisionszeichen locker handelt, stolpert ChatGPT und vergisst schlicht, den ersten Term durch 17 zu teilen.
Mit der angepassten Schreibweise «(7min 39s/17) + (19+ (7/12))min» kommt auch ChatGPT zum korrekten Resultat. Aber wie bei der echten Prüfung zählt der erste Versuch.
Während das kostenlose Angebot der amerikanischen KI Datei-Uploads nicht unterstützt, können bei DeepSeek auch Bilder hochgeladen werden. Der chinesischen KI reicht ein Screenshot der Aufgabe, um sie zu lösen. Beeindruckend.
Auch diese Aufgabe müssen wir aufgrund der Brüche leicht umschreiben:
b) «Gib die Lösung für x in kg und g an: (7+(13/50))kg − 3.18kg + x = 6024g»
Beide lösen die zweite Teilaufgabe souverän ...
Auch hier treffen wir auf das Bruch-Problem. Und das ist nicht die einzige Schwierigkeit ...
Wir schreiben um:
«Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67 : 13) = (28+3/8) − x»
Woran liegt's? An einem simplen Rechnungsfehler. Bei ChatGPT ergibt 72.67/13 ungefähr 5.594 ... statt korrekterweise 5.59. Unglaublich!
Liegt es erneut an der inkonsequenten Verwendung der Operationszeichen? Wir versuchen es mit «Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67/13) = (28+3/8) − x».
Nein. Erneut verrechnet sich ChatGPT an derselben Stelle (72.67÷13≈5.591). Wir können es fast nicht glauben. Für den korrekten Lösungsweg gibt's trotzdem noch zwei Punkte. Deep Seek holt sich auch hier die volle Punktzahl.
Erneut schreiben wir geringfügig um. Und zwar in:
«Von seinem Feriengeld von 84 Franken hat Tim bereits Dreisiebtel aufgebraucht. Vom Rest plant er, Zweidrittel für einen neuen Fussball auszugeben. Zu seiner Überraschung kostet der Fussball weniger als erwartet. Nach dem Kauf hat er noch 20 Franken von seinem Feriengeld. Wie viele Franken ist der Fussball günstiger als erwartet?»
Beide lösen die Aufgabe humorlos und souverän. Inklusive Lösungsweg.
Hier wird nichts umgeschrieben ... und die beiden Streber meistern die Aufgabe ohne Probleme.
Obwohl man bei DeepSeek Bilder hochladen kann, ist die KI noch nicht in der Lage, diese ausserhalb einer Textanalyse zu erfassen. Die Aufgabe ist also für beide unlösbar – deshalb ersetzen wir sie durch eine Logikaufgabe aus einem Gymi-Vorbereitungsheft:
«13 SchülerInnen benötigen 1h und 45 Minuten, um den Pausenplatz vom Laub zu befreien. Nach 20 Minuten kommen ihnen 8 LehrerInnen zu Hilfe. Diese arbeiten aber nur halb so schnell. Wie lange dauert es, bis der Pausenplatz vom Laub befreit wurde.»
Wirklich beeindruckend ist, dass DeepSeek die acht LehrerInnen, welche halb so schnell arbeiten, gleich in vier SchülerInnen umrechnet – und das auch noch mitteilt. ChatGPT erklärt seine Arbeitsschritte allerdings etwas detaillierter; so, dass sogar ein nicht weiter beschriebener Journalist die Aufgabe nachvollziehen kann.
Auch die Frage 6 ist eine Textaufgabe. Wir erwarten erneut einen Doppelerfolg ... und fast schon ernüchternd ist das Resultat. Beide holen sich die Maximalpunktzahl.
Eine weitere Textaufgabe. Jetzt allerdings etwas komplexer. Beide KIs lösen die Aufgabe ... falsch!
Beide begreifen nicht, dass die Urgrossmutter älter ist als die Grossmutter. Deshalb spucken sie das korrekte Resultat für die Grossmutter – und nicht für die Urgrossmutter – aus. Weil der Weg bei beiden aber korrekt ist, kriegen sie dafür immerhin noch die Hälfte der Punktzahl. Etwas froh sind wir trotzdem – aber auch etwas überrascht.
Selbstverständlich gilt für die Prüfung der erste Versuch. Aus reiner Neugier weisen wir die beiden KIs auf ihren Fehler hin und verlangen, dass sie die Aufgabe noch einmal lösen.
Ha! Bei dieser Aufgabe rechnet ChatGPT im Kreis herum. DeepSeek löst sie hingegen korrekt. Bereits das Gewicht des Flugzeugs (samt Fracht, ohne Passagiere) hatte bei ChatGPT nicht gestimmt.
Den entscheidenden Fehler begeht ChatGPT aber bei der Berechnung der Reichweite pro Tonne.
Für den mehr oder weniger korrekten Weg kriegt ChatGPT aber immer noch einen von vier Punkten. Trotzdem. Bei dieser Aufgabe zeigen sich Schwächen beim US-Modell.
Die neunte und letzte Aufgabe lässt sich mit den Gratis-KIs wiederum nicht lösen. Als Ersatz wählen wir die siebte Aufgabe der Gymi-Prüfung des Jahres 2016. Ein klassischer Geschwindigkeit-Nervtöter.
So. Beide KIs meistern die letzte Hürde noch einmal souverän. Damit kommen wir zur Auswertung.
ChatGPT 4o mini besteht die Prüfung mit 27 von 36 Punkten. Das gibt mit der gängigen Formel (x/36x5)+1 eine 4,75. Damit reicht's ChatGPT ohne Vornoten gerade noch so ins Gymi. Wir waren mit den Abzügen aber auch streng ... etwas milder gestimmt, hätte es auch für eine 5 reichen können.
Mit 34 Punkten und der Note 5,75 (aufgerundet von einer 5,72) wird DeepSeek den Vorschusslorbeeren, die die KI in den letzten Tagen erhielt, komplett gerecht. Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.
Sollte es den Tatsachen entsprechen, dass die KI tatsächlich so günstig trainiert werden konnte, dann sind die Sorgen der USA berechtigt.
Stirnrunzeln dürften auch viele Nachhilfelehrer haben. Die Herleitungen beider KIs sind dermassen einleuchtend und umfangreich, dass in Zukunft einige Kinder auf diese Hilfe zurückgreifen dürften. Zu meistern gilt es dann vor allem die Versuchung, sich damit selbst zu betrügen.
Aber dann macht der Einstieg wenig Sinn.
4o kann alle Aufgaben auf Anhieb korrekt lösen. Habe eben alle die falsch waren kurz getestet. Und 4o ist bereits wieder veraltet und o1 löst sie sowieso richtig.
Etwas seltsamer Artikel
Hier wurde also ein Schüler der Spricht, ohne nachzudenken mit einem Schüler, der zuerst nachdenkt verglichen.
Und wie in der Realität reicht’s dem faulen aber schlauen Schüler (Modell o4-mini) gerade noch so knapp ins Gymi 😉 Ziel erreicht!