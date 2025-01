DeepSeek vs. ChatGPT: So (unterschiedlich) schlagen sich die KIs bei der Gymi-Prüfung

Der Release der angeblich supergünstigen KI DeepSeek aus China war ein Schuss vor den Bug der amerikanischen Branchengrössen. Diese reklamierten bisher einen gewaltigen Entwicklungsvorsprung für sich – DeepSeek soll aber bei Logik-, Programmier- und Mathematikaufgaben mindestens ebenbürtig sein.

Und genau das haben wir anhand der Gymi-Aufnahmeprüfung des Kantons Zürich des Jahres 2015 getestet. Es treten gegeneinander an: Die Gratisversion von ChatGPT (4o mini) vs. die Gratisversion von DeepSeek. Die Resultate haben wir anhand des gängigen Notenschlüssels beurteilt. Und es gab einen klaren Sieger.

Weil Brüche nicht einfach so copy-pastet werden können, schreiben wir die Aufgabe um. Und zwar in:

a) «(7min 39s : 17) + (19+ (7/12)) min»

Während DeepSeek die Inkonsequenz bei den Divisionszeichen locker handelt, stolpert ChatGPT und vergisst schlicht, den ersten Term durch 17 zu teilen.

ChatGPT (l.) vergisst, durch 17 zu dividieren, DeepSeek nicht. bild: Screenshot

Mit der angepassten Schreibweise «(7min 39s/17) + (19+ (7/12))min» kommt auch ChatGPT zum korrekten Resultat. Aber wie bei der echten Prüfung zählt der erste Versuch.

Während das kostenlose Angebot der amerikanischen KI Datei-Uploads nicht unterstützt, können bei DeepSeek auch Bilder hochgeladen werden. Der chinesischen KI reicht ein Screenshot der Aufgabe, um sie zu lösen. Beeindruckend.

gif: screenshot deepseek

Auch diese Aufgabe müssen wir aufgrund der Brüche leicht umschreiben:

b) «Gib die Lösung für x in kg und g an: (7+(13/50))kg − 3.18kg + x = 6024g»



Beide lösen die zweite Teilaufgabe souverän ...

bild: screenshot

Auch hier treffen wir auf das Bruch-Problem. Und das ist nicht die einzige Schwierigkeit ...

Wir schreiben um:

«Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67 : 13) = (28+3/8) − x»

ChatGPT ist zwar in der Nähe des korrekten Resultats, aber chirurgische Präzision sieht anders aus. bild: screenshot

Woran liegt's? An einem simplen Rechnungsfehler. Bei ChatGPT ergibt 72.67/13 ungefähr 5.594 ... statt korrekterweise 5.59. Unglaublich!

Links der Fehler von ChatGPT, rechts die korrekte Version von DeepSeek. bild: screenshot

Liegt es erneut an der inkonsequenten Verwendung der Operationszeichen? Wir versuchen es mit «Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67/13) = (28+3/8) − x».

Nein. Erneut verrechnet sich ChatGPT an derselben Stelle (72.67÷13≈5.591). Wir können es fast nicht glauben. Für den korrekten Lösungsweg gibt's trotzdem noch zwei Punkte. Deep Seek holt sich auch hier die volle Punktzahl.

Erneut schreiben wir geringfügig um. Und zwar in:

«Von seinem Feriengeld von 84 Franken hat Tim bereits Dreisiebtel aufgebraucht. Vom Rest plant er, Zweidrittel für einen neuen Fussball auszugeben. Zu seiner Überraschung kostet der Fussball weniger als erwartet. Nach dem Kauf hat er noch 20 Franken von seinem Feriengeld. Wie viele Franken ist der Fussball günstiger als erwartet?»

bild: screenshot

Beide lösen die Aufgabe humorlos und souverän. Inklusive Lösungsweg.

Hier wird nichts umgeschrieben ... und die beiden Streber meistern die Aufgabe ohne Probleme.

bild: screenshot

Obwohl man bei DeepSeek Bilder hochladen kann, ist die KI noch nicht in der Lage, diese ausserhalb einer Textanalyse zu erfassen. Die Aufgabe ist also für beide unlösbar – deshalb ersetzen wir sie durch eine Logikaufgabe aus einem Gymi-Vorbereitungsheft:

«13 SchülerInnen benötigen 1h und 45 Minuten, um den Pausenplatz vom Laub zu befreien. Nach 20 Minuten kommen ihnen 8 LehrerInnen zu Hilfe. Diese arbeiten aber nur halb so schnell. Wie lange dauert es, bis der Pausenplatz vom Laub befreit wurde.»

Links: ChatGPT, rechts: DeepSeek. Beide lösen die Aufgabe ohne Probleme. bild: screenshot

Wirklich beeindruckend ist, dass DeepSeek die acht LehrerInnen, welche halb so schnell arbeiten, gleich in vier SchülerInnen umrechnet – und das auch noch mitteilt. ChatGPT erklärt seine Arbeitsschritte allerdings etwas detaillierter; so, dass sogar ein nicht weiter beschriebener Journalist die Aufgabe nachvollziehen kann.

Auch die Frage 6 ist eine Textaufgabe. Wir erwarten erneut einen Doppelerfolg ... und fast schon ernüchternd ist das Resultat. Beide holen sich die Maximalpunktzahl.

Beide KIs lösen die Aufgabe ohne Probleme. Wobei das «ohne Probleme» natürlich nur eine Vermutung ist. bild: screenshot

Eine weitere Textaufgabe. Jetzt allerdings etwas komplexer. Beide KIs lösen die Aufgabe ... falsch!

Beide begreifen nicht, dass die Urgrossmutter älter ist als die Grossmutter. Deshalb spucken sie das korrekte Resultat für die Grossmutter – und nicht für die Urgrossmutter – aus. Weil der Weg bei beiden aber korrekt ist, kriegen sie dafür immerhin noch die Hälfte der Punktzahl. Etwas froh sind wir trotzdem – aber auch etwas überrascht.

Links: ChatGPT, rechts: DeepSeek: «G» steht für Grossmutter und «U» für Urgrossmutter. Beide KIs begreifen nicht, wer davon älter sein muss. Beide entscheiden sich für die erstgenannte Grossmutter. bild: screenshot

Schon recht eigenartig, dass die beiden recht makellosen KIs denselben Fehler begehen. bild: screenshot

Selbstverständlich gilt für die Prüfung der erste Versuch. Aus reiner Neugier weisen wir die beiden KIs auf ihren Fehler hin und verlangen, dass sie die Aufgabe noch einmal lösen.

Links: ChatGPT, rechts: DeepSeek. Beide KIs geben sich geläutert. Doch nur eine davon wird aus ihrem Fehler lernen. Interessant auch, wie DeepSeek ihre anfängliche Behauptung revidiert. bild: screenshot

ChatGPT (l.) behauptet, den Fehler eingesehen zu haben, begeht ihn aber erneut. DeepSeek ist lernfähiger. bild: screenshot

Ha! Bei dieser Aufgabe rechnet ChatGPT im Kreis herum. DeepSeek löst sie hingegen korrekt. Bereits das Gewicht des Flugzeugs (samt Fracht, ohne Passagiere) hatte bei ChatGPT nicht gestimmt.

bild: screenshot

Den entscheidenden Fehler begeht ChatGPT aber bei der Berechnung der Reichweite pro Tonne.

Statt durch 11,25 zu dividieren, teilt ChatGPT durch 18 Tonnen – und rechnet damit im Kreis. screenshot: chatgpt

Für den mehr oder weniger korrekten Weg kriegt ChatGPT aber immer noch einen von vier Punkten. Trotzdem. Bei dieser Aufgabe zeigen sich Schwächen beim US-Modell.

Die neunte und letzte Aufgabe lässt sich mit den Gratis-KIs wiederum nicht lösen. Als Ersatz wählen wir die siebte Aufgabe der Gymi-Prüfung des Jahres 2016. Ein klassischer Geschwindigkeit-Nervtöter.

bild: screenshot

So. Beide KIs meistern die letzte Hürde noch einmal souverän. Damit kommen wir zur Auswertung.

Auswertung

ChatGPT 4o mini besteht die Prüfung mit 27 von 36 Punkten. Das gibt mit der gängigen Formel (x/36x5)+1 eine 4,75. Damit reicht's ChatGPT ohne Vornoten gerade noch so ins Gymi. Wir waren mit den Abzügen aber auch streng ... etwas milder gestimmt, hätte es auch für eine 5 reichen können.

Mit 34 Punkten und der Note 5,75 (aufgerundet von einer 5,72) wird DeepSeek den Vorschusslorbeeren, die die KI in den letzten Tagen erhielt, komplett gerecht. Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.

Sollte es den Tatsachen entsprechen, dass die KI tatsächlich so günstig trainiert werden konnte, dann sind die Sorgen der USA berechtigt.

Stirnrunzeln dürften auch viele Nachhilfelehrer haben. Die Herleitungen beider KIs sind dermassen einleuchtend und umfangreich, dass in Zukunft einige Kinder auf diese Hilfe zurückgreifen dürften. Zu meistern gilt es dann vor allem die Versuchung, sich damit selbst zu betrügen.