Die Wissenschaftsgemeinde ist produktiv – sie muss produktiv sein, denn Karrierefortschritt und Vergabe von Forschungsgeldern hängen stark an der Publikationstätigkeit: «Publish or perish!» (sinngemäss: «Wer schreibt, der bleibt!»). Kein Wunder, schwillt die Zahl der Studien seit Jahren beständig an. Und kein Wunder, nutzen immer mehr Forscher KI-Tools wie ChatGPT, um ihre Papers zu schreiben.
Das schlägt sich offenbar auch im Jargon dieser wissenschaftlichen Arbeiten nieder. Das legt zumindest die Entdeckung nahe, die Andrew Gray gemacht hat: Der Bibliothekar am University College London analysierte nicht weniger als fünf Millionen Studien, die im vergangenen Jahr publiziert worden waren, und stellte dabei fest, dass bestimmte Wörter plötzlich sehr viel häufiger auftauchten.
Dazu gehörten das Adverb «meticulously» (minutiös, peinlich genau), das einen Anstieg von 137 Prozent verzeichnete, sowie das zugehörige Adjektiv «meticulous» (59 %). Bedeutend häufiger wurden auch Adjektive wie «intricate» (komplex; 117 %) oder «commendable» (verdienstvoll, löblich; 83 %) verwendet.
I have a preprint out! Evidence for extensive appearance of chatGPT/LLM derived text in scholarly papers, signalled by words that mysteriously became a lot more popular in 2023 - eg "commendable". I estimate upwards of 60,000 papers last year (& rising...) https://t.co/OYqMCyTFys pic.twitter.com/l8Vx1m7jiK
— Andrew Gray | @generalising@mastodon.flooey.org (@generalising) March 26, 2024
Gemäss Grays Analyse, die noch nicht peer reviewed ist, tauchte das Wort «intricate» 2023 in rund 109'000 Studien auf. In den Jahren zuvor lag der Durchschnitt jedoch bei rund 50'000 – weniger als halb so viel. Beim Adverb «meticulously» kam 2022 in rund 12'300 Studien vor, 2023 jedoch bereits in mehr als 28'000. Und «commendable» erlebte einen Anstieg von 6500 Arbeiten auf beinahe 12'000.
Ein weiteres Wort, das ChatGPT und vergleichbare KI-Tools inflationär verwenden, ist «delve» (erforschen, sich in etwas vertiefen). Laut dem KI-Forscher Jeremy Nguyen von der Swinburne University of Technology in Melbourne (Australien) kommt der Begriff mittlerweile in mehr als 0,5 Prozent der medizinischen Studien vor, während es in der Vor-ChatGPT-Ära weniger als 0,04 Prozent waren.
Earlier this week, I asked if medical studies are being written with ChatGPT.
— Jeremy Nguyen ✍🏼 🚢 (@JeremyNguyenPhD) April 4, 2024
(We all know ChatGPT overuses the word "delve"...)
People in the comments pointed out that the chart should be as a PERCENTAGE of papers published on Pubmed. So here it is:https://t.co/ntOBEPm1MV pic.twitter.com/4W6zlNSkb8
Der offizielle Account von ChatGPT auf der Plattform X hat mittlerweile auf den Post von Nguyen reagiert:
i just love delving what can i say?
— ChatGPT (@ChatGPTapp) April 8, 2024
Für Gray gibt es nur eine Erklärung für dieses Phänomen, wie die spanische Zeitung «El País» berichtet: Der markante Anstieg dieser Wörter sei darauf zurückzuführen, dass mittlerweile zehntausende von Forschern ChatGPT oder ein ähnliches KI-Tool nutzen, um ihre Studien zu verfassen oder Formulierungen zu verbessern.
El País führt zwei hübsche Beispiele von Studien an, bei denen jeweils eine peinliche Fehlleistung enthüllt hat, dass bei der Formulierung ein solches Large Language Model (LLM) wie ChatGPT beigezogen wurde. So in einem chinesischen Paper, das im Februar in einer Fachzeitschrift des Elsevier-Verlags veröffentlicht wurde und mit dieser Einleitung beginnt:
Die Formulierung ist typisch für ChatGPT; die Studienautoren haben das KI-Tool offenbar nach einer Einleitung gefragt und diese dann versehentlich unverändert stehen lassen. Eine andere, von israelischen Wissenschaftlern im März veröffentlichte Studie, brilliert mit diesem Text:
ChatGPT wurde Ende 2022 eingeführt und löste einen wahren Hype um KI-Tools aus. Rund 60'000 wissenschaftliche Arbeiten, das sind mehr als 1 Prozent aller 2023 analysierten Studien, wurden nach Einschätzung von Gray bereits mithilfe eines Large Language Models geschrieben. Gray geht davon aus, dass extreme Fälle – wenn jemand sich eine ganze Studie von ChatGPT schreiben liess – selten sind. Üblicherweise würden die KI-Tools lediglich eingesetzt, um Tippfehler zu eliminieren oder die Übersetzung in Englische, der lingua franca der Wissenschaft, zu erleichtern.
Gleichwohl gebe es eine Grauzone, in der die Hilfe von ChatGPT extensiver genutzt werde, ohne dass die Ergebnisse überprüft würden. Wie gross diese Grauzone sei, könne man derzeit unmöglich wissen, sagte Gray, denn wissenschaftliche Zeitschriften verlangten von den Autoren nicht, die Verwendung von ChatGPT transparent zu machen.
Wie ein Forschungsteam der Stanford University um James Zou gezeigt hat, neigen Large Language Models dazu, bestimmte Wörter überproportional häufig zu verwenden – und zwar überwiegend positiv besetzte Begriffe wie «commendable» (verdienstvoll), «meticulous» (minutiös), «intricate» (komplex), «innovative» (innovativ) und «versatile» (vielseitig).
Die Häufung dieser Begriffe kommt auch in Gutachten von Fachleuten vor, die Studien im Peer-Review-Prozess bewerten, bevor sie veröffentlicht werden. Dies zeigte sich bei der Analyse von Gutachten, die auf zwei internationalen Konferenzen über künstliche Intelligenz vorgestellt wurden: Die Wahrscheinlichkeit, dass darin das Wort «meticulous» auftaucht, war um das 35-fache gestiegen.
In den Peer Reviews zu Studien in den renommierten Zeitschriften der Nature-Gruppe fanden die Stanford-Forscher hingegen keine signifikanten Spuren von ChatGPT oder vergleichbaren LLMs. Die Verwendung von solchen KI-Tools korrelierte anscheinend mit einer geringeren Qualität der Gutachten. Gray bezeichnete diesen Befund als beunruhigend. «Wenn wir wissen, dass die Verwendung dieser Tools zum Verfassen von Reviews zu Ergebnissen von geringerer Qualität führt, müssen wir darüber nachdenken, wie sie zum Verfassen von Studien verwendet werden und was das bedeutet.»
Ein Jahr nach der Einführung von ChatGPT gab einer von drei Wissenschaftlern in einer Umfrage der Zeitschrift «Nature» an, das Tool zum Verfassen von Studien verwendet haben. Gleichwohl steht nur in wenigen wissenschaftlichen Arbeiten, ob sie ein KI-Tool eingesetzt haben. Gray sieht die Gefahr heraufziehen, dass sich ein KI-Teufelskreis bildet, wenn spätere Versionen von ChatGPT mit wissenschaftlichen Publikationen trainiert werden, die von älteren Versionen desselben KI-Tools verfasst wurden.
Und der Jargon der KI-Tools beeinflusst wiederum die Forscher. Wie Jeremy Nguyen unlängst feststellte, verwendet er nun selber das Wort «delve»:
Respect, Vijay.
— Jeremy Nguyen ✍🏼 🚢 (@JeremyNguyenPhD) April 10, 2024
I actually find myself using "delve" lately in my own language—probably because I spend so much time talking to GPT.
It's a good and useful word. If people think my writing isn't good because of that, that's okay.
(dhr)