Wissen
Digital

DeepSeek vs. ChatGPT: So schlagen sich die KIs bei der Gymiprüfung

DeepSeek vs. ChatGPT: So (unterschiedlich) schlagen sich die KIs bei der Gymi-Prüfung

28.01.2025, 19:58
Mehr «Wissen»

Der Release der angeblich supergünstigen KI DeepSeek aus China war ein Schuss vor den Bug der amerikanischen Branchengrössen. Diese reklamierten bisher einen gewaltigen Entwicklungsvorsprung für sich – DeepSeek soll aber bei Logik-, Programmier- und Mathematikaufgaben mindestens ebenbürtig sein.

Und genau das haben wir anhand der Gymi-Aufnahmeprüfung des Kantons Zürich des Jahres 2015 getestet. Es treten gegeneinander an: Die Gratisversion von ChatGPT (4o mini) vs. die Gratisversion von DeepSeek. Die Resultate haben wir anhand des gängigen Notenschlüssels beurteilt. Und es gab einen klaren Sieger.

Bild

Weil Brüche nicht einfach so copy-pastet werden können, schreiben wir die Aufgabe um. Und zwar in:

a) «(7min 39s : 17) + (19+ (7/12)) min»

Während DeepSeek die Inkonsequenz bei den Divisionszeichen locker handelt, stolpert ChatGPT und vergisst schlicht, den ersten Term durch 17 zu teilen.

ChatGPT (l.) vergisst, durch 17 zu dividieren, DeepSeek nicht.
ChatGPT (l.) vergisst, durch 17 zu dividieren, DeepSeek nicht. bild: Screenshot

Mit der angepassten Schreibweise «(7min 39s/17) + (19+ (7/12))min» kommt auch ChatGPT zum korrekten Resultat. Aber wie bei der echten Prüfung zählt der erste Versuch.

Während das kostenlose Angebot der amerikanischen KI Datei-Uploads nicht unterstützt, können bei DeepSeek auch Bilder hochgeladen werden. Der chinesischen KI reicht ein Screenshot der Aufgabe, um sie zu lösen. Beeindruckend.

Animiertes GIFGIF abspielen
gif: screenshot deepseek
Bild

Auch diese Aufgabe müssen wir aufgrund der Brüche leicht umschreiben:

b) «Gib die Lösung für x in kg und g an: (7+(13/50))kg − 3.18kg + x = 6024g»

Beide lösen die zweite Teilaufgabe souverän ...

Bild
bild: screenshot

Bild

Auch hier treffen wir auf das Bruch-Problem. Und das ist nicht die einzige Schwierigkeit ...

Wir schreiben um:

«Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67 : 13) = (28+3/8) − x»

ChatGPT ist zwar in der Nähe des korrekten Resultats, aber chirurgische Präzision sieht anders aus.
ChatGPT ist zwar in der Nähe des korrekten Resultats, aber chirurgische Präzision sieht anders aus.bild: screenshot

Woran liegt's? An einem simplen Rechnungsfehler. Bei ChatGPT ergibt 72.67/13 ungefähr 5.594 ... statt korrekterweise 5.59. Unglaublich!

Links der Fehler von ChatGPT, rechts die korrekte Version von DeepSeek.
Links der Fehler von ChatGPT, rechts die korrekte Version von DeepSeek. bild: screenshot

Liegt es erneut an der inkonsequenten Verwendung der Operationszeichen? Wir versuchen es mit «Gib die Lösung für x als Dezimalzahl an: ((2+11/25)) · 12)−(72.67/13) = (28+3/8) − x».

Nein. Erneut verrechnet sich ChatGPT an derselben Stelle (72.67÷13≈5.591). Wir können es fast nicht glauben. Für den korrekten Lösungsweg gibt's trotzdem noch zwei Punkte. Deep Seek holt sich auch hier die volle Punktzahl.

Bild

Erneut schreiben wir geringfügig um. Und zwar in:

«Von seinem Feriengeld von 84 Franken hat Tim bereits Dreisiebtel aufgebraucht. Vom Rest plant er, Zweidrittel für einen neuen Fussball auszugeben. Zu seiner Überraschung kostet der Fussball weniger als erwartet. Nach dem Kauf hat er noch 20 Franken von seinem Feriengeld. Wie viele Franken ist der Fussball günstiger als erwartet?»

Bild
bild: screenshot

Beide lösen die Aufgabe humorlos und souverän. Inklusive Lösungsweg.

Bild

Hier wird nichts umgeschrieben ... und die beiden Streber meistern die Aufgabe ohne Probleme.

Bild
bild: screenshot

Bild

Obwohl man bei DeepSeek Bilder hochladen kann, ist die KI noch nicht in der Lage, diese ausserhalb einer Textanalyse zu erfassen. Die Aufgabe ist also für beide unlösbar – deshalb ersetzen wir sie durch eine Logikaufgabe aus einem Gymi-Vorbereitungsheft:

«13 SchülerInnen benötigen 1h und 45 Minuten, um den Pausenplatz vom Laub zu befreien. Nach 20 Minuten kommen ihnen 8 LehrerInnen zu Hilfe. Diese arbeiten aber nur halb so schnell. Wie lange dauert es, bis der Pausenplatz vom Laub befreit wurde.»

Links: ChatGPT, rechts: DeepSeek. Beide lösen die Aufgabe ohne Probleme.
Links: ChatGPT, rechts: DeepSeek. Beide lösen die Aufgabe ohne Probleme. bild: screenshot

Wirklich beeindruckend ist, dass DeepSeek die acht LehrerInnen, welche halb so schnell arbeiten, gleich in vier SchülerInnen umrechnet – und das auch noch mitteilt. ChatGPT erklärt seine Arbeitsschritte allerdings etwas detaillierter; so, dass sogar ein nicht weiter beschriebener Journalist die Aufgabe nachvollziehen kann.

Bild

Auch die Frage 6 ist eine Textaufgabe. Wir erwarten erneut einen Doppelerfolg ... und fast schon ernüchternd ist das Resultat. Beide holen sich die Maximalpunktzahl.

Beide KIs lösen die Aufgabe ohne Probleme. Wobei das «ohne Probleme» natürlich nur eine Vermutung ist.
Beide KIs lösen die Aufgabe ohne Probleme. Wobei das «ohne Probleme» natürlich nur eine Vermutung ist.bild: screenshot

Bild

Eine weitere Textaufgabe. Jetzt allerdings etwas komplexer. Beide KIs lösen die Aufgabe ... falsch!

Beide begreifen nicht, dass die Urgrossmutter älter ist als die Grossmutter. Deshalb spucken sie das korrekte Resultat für die Grossmutter – und nicht für die Urgrossmutter – aus. Weil der Weg bei beiden aber korrekt ist, kriegen sie dafür immerhin noch die Hälfte der Punktzahl. Etwas froh sind wir trotzdem – aber auch etwas überrascht.

Links: ChatGPT, rechts: DeepSeek: «G» steht für Grossmutter und «U» für Urgrossmutter. Beide KIs begreifen nicht, wer davon älter sein muss. Beide entscheiden sich für die erstgenannte Grossmutter.
Links: ChatGPT, rechts: DeepSeek: «G» steht für Grossmutter und «U» für Urgrossmutter. Beide KIs begreifen nicht, wer davon älter sein muss. Beide entscheiden sich für die erstgenannte Grossmutter.bild: screenshot
Schon recht eigenartig, dass die beiden recht makellosen KIs denselben Fehler begehen.
Schon recht eigenartig, dass die beiden recht makellosen KIs denselben Fehler begehen.bild: screenshot

Selbstverständlich gilt für die Prüfung der erste Versuch. Aus reiner Neugier weisen wir die beiden KIs auf ihren Fehler hin und verlangen, dass sie die Aufgabe noch einmal lösen.

Links: ChatGPT, rechts: DeepSeek. Beide KIs geben sich geläutert. Doch nur eine davon wird aus ihrem Fehler lernen. Interessant auch, wie DeepSeek ihre anfängliche Behauptung revidiert.
Links: ChatGPT, rechts: DeepSeek. Beide KIs geben sich geläutert. Doch nur eine davon wird aus ihrem Fehler lernen. Interessant auch, wie DeepSeek ihre anfängliche Behauptung revidiert. bild: screenshot
ChatGPT (l.) behauptet, den Fehler eingesehen zu haben, begeht ihn aber erneut. DeepSeek ist lernfähiger.
ChatGPT (l.) behauptet, den Fehler eingesehen zu haben, begeht ihn aber erneut. DeepSeek ist lernfähiger.bild: screenshot

Bild

Ha! Bei dieser Aufgabe rechnet ChatGPT im Kreis herum. DeepSeek löst sie hingegen korrekt. Bereits das Gewicht des Flugzeugs (samt Fracht, ohne Passagiere) hatte bei ChatGPT nicht gestimmt.

Bild
bild: screenshot

Den entscheidenden Fehler begeht ChatGPT aber bei der Berechnung der Reichweite pro Tonne.

Statt durch 11,25 zu dividieren, teilt ChatGPT durch 18 Tonnen – und rechnet damit im Kreis.
Statt durch 11,25 zu dividieren, teilt ChatGPT durch 18 Tonnen – und rechnet damit im Kreis.screenshot: chatgpt

Für den mehr oder weniger korrekten Weg kriegt ChatGPT aber immer noch einen von vier Punkten. Trotzdem. Bei dieser Aufgabe zeigen sich Schwächen beim US-Modell.

Bild

Die neunte und letzte Aufgabe lässt sich mit den Gratis-KIs wiederum nicht lösen. Als Ersatz wählen wir die siebte Aufgabe der Gymi-Prüfung des Jahres 2016. Ein klassischer Geschwindigkeit-Nervtöter.

Bild
Bild
bild: screenshot

So. Beide KIs meistern die letzte Hürde noch einmal souverän. Damit kommen wir zur Auswertung.

Auswertung

ChatGPT 4o mini besteht die Prüfung mit 27 von 36 Punkten. Das gibt mit der gängigen Formel (x/36x5)+1 eine 4,75. Damit reicht's ChatGPT ohne Vornoten gerade noch so ins Gymi. Wir waren mit den Abzügen aber auch streng ... etwas milder gestimmt, hätte es auch für eine 5 reichen können.

Bild

Mit 34 Punkten und der Note 5,75 (aufgerundet von einer 5,72) wird DeepSeek den Vorschusslorbeeren, die die KI in den letzten Tagen erhielt, komplett gerecht. Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.

Bild

Sollte es den Tatsachen entsprechen, dass die KI tatsächlich so günstig trainiert werden konnte, dann sind die Sorgen der USA berechtigt.

Stirnrunzeln dürften auch viele Nachhilfelehrer haben. Die Herleitungen beider KIs sind dermassen einleuchtend und umfangreich, dass in Zukunft einige Kinder auf diese Hilfe zurückgreifen dürften. Zu meistern gilt es dann vor allem die Versuchung, sich damit selbst zu betrügen.

DANKE FÜR DIE ♥
Würdest du gerne watson und unseren Journalismus unterstützen? Mehr erfahren
(Du wirst umgeleitet, um die Zahlung abzuschliessen.)
5 CHF
15 CHF
25 CHF
Anderer
Oder unterstütze uns per Banküberweisung.
Giftiger Fluss in Indonesien: Neue Müllberge angeschwemmt
1 / 10
Giftiger Fluss in Indonesien: Neue Müllberge angeschwemmt
Seit Jahren schwimmt im indonesischen Fluss Citarum ein gewaltiger Abfallberg.
quelle: www.imago-images.de / imago images
Auf Facebook teilenAuf X teilen
Markus Ritter im watson-Interview
Video: watson
Das könnte dich auch noch interessieren:
85 Kommentare
Weil wir die Kommentar-Debatten weiterhin persönlich moderieren möchten, sehen wir uns gezwungen, die Kommentarfunktion 24 Stunden nach Publikation einer Story zu schliessen. Vielen Dank für dein Verständnis!
Die beliebtesten Kommentare
avatar
Leverage
28.01.2025 20:28registriert Dezember 2017
Weshalb genau wird 4o mini genommen? Weil es kostenlos ist?
Aber dann macht der Einstieg wenig Sinn.

4o kann alle Aufgaben auf Anhieb korrekt lösen. Habe eben alle die falsch waren kurz getestet. Und 4o ist bereits wieder veraltet und o1 löst sie sowieso richtig.

Etwas seltsamer Artikel
11622
Melden
Zum Kommentar
avatar
_stefan
28.01.2025 21:21registriert September 2015
„Die KI arbeitet deutlich langsamer als ChatGPT, dafür aber auch sorgfältiger.“ DeepSeek ist eben ein reasoning Model (wie ChatGPT o1), welches seine Gedanken überdenkt und sich selber korrigiert.
Hier wurde also ein Schüler der Spricht, ohne nachzudenken mit einem Schüler, der zuerst nachdenkt verglichen.
Und wie in der Realität reicht’s dem faulen aber schlauen Schüler (Modell o4-mini) gerade noch so knapp ins Gymi 😉 Ziel erreicht!
663
Melden
Zum Kommentar
avatar
rockyM
28.01.2025 21:06registriert Februar 2016
Meine Meinung zu ChatGPT. Bin Elektriker und Fahrradmechaniker. Viel Ahnung von IT, aber keine Programierkentnisse. Ich konnte mit den richtigen Fragen innert einer Woche eine Website erstellen, welche per API Ladevorgänge bei EcarUp und Zaptect Abruft, darstellt und den Nutzern Automatisch eine PDF Rechnung mit CH Einzahlungsschein nach gewünschten Rythmus erstellt und mailt. Alles Automatisiert und ohne Kosten. Das Ding ist so gut, dass ich es einer Verwaltung verkaufen konnte. Kurz, ich finde es krass und sehe eine unglaubliche Distrubtion auf uns zukommen.
6412
Melden
Zum Kommentar
85
    KI kann ärztliche Fehldiagnosen nicht verhindern – das solltest du wissen
    Am Inselspital wurde die weltweit erste Studie zu einem KI-basierten Diagnosesystem in der Akutmedizin durchgeführt. Die Resultate sind ernüchternd.

    Ein Forschungsteam unter der Leitung des Inselspitals Bern, des Universitätsspitals Bern und der Universität Bern hat in einer umfangreichen Studie untersucht, ob ein KI-basiertes Diagnosesystem die Qualität von ärztlichen Diagnosen verbessern kann.

    Zur Story