
Forschende am Hertie Institute for AI in Brain Health [1] entwickelten eine datengestützte Methode namens „Exzesswortanalyse“, um die Präsenz von durch große Sprachmodelle (LLM) unterstütztem Schreiben in biomedizinischen Abstracts zu quantifizieren. Die vorgestellte Methodik benötigt keine vorab beschrifteten Trainingsdatensätze. Sie zeigt Veränderungen in den Mustern wissenschaftlichen Schreibens auf. Die Excess-Word-Analyse wurde inspiriert von epidemiologischen Studien zur Übersterblichkeit. Diese Methode identifiziert Wörter, die häufiger als erwartet auf der Grundlage historischer Trends erscheinen.
Die Studie enthüllte eine grundlegende qualitative Veränderung im Excess-Vokabular nach der Veröffentlichung von ChatGPT. Vor 2023 waren Excess-Wörter überwiegend inhaltsbezogene Substantive, die große Ereignisse (z.B. COVID) oder Forschungstrends widerspiegelten. Im starken Kontrast dazu bestanden die Excess-Wörter des Jahres 2024 fast ausschließlich aus Stilwörtern – Begriffe, die eher den rhetorischen Ausdruck beeinflussen, als spezifischen Inhalt zu vermitteln. Beispiele sind Verben wie „delves“ (r=28,0), „underscores“ (r=13,8) und „showcasing“ (r=10,7), neben häufigeren Wörtern wie „potential“ (δ=0,052), „findings“ (δ=0,041) und „crucial“ (δ=0,037). Deutschprachige Äquivalente sind: „delves“ – „vertieft“, „underscores“ – „unterstreicht“, „showcasing“ – „präsentiert“, „potential“ – „Potenzial“, „findings“ – „Ergebnisse“ und „crucial“ – „entscheidend“.
Die endgültige (sehr konservative) Schätzung weist darauf hin, dass mindestens 13,5 % der PubMed-Abstracts von 2024 – etwa 200.000 Artikel jährlich – mit LLMs verarbeitet wurden.
Die Ergebnisse werfen wichtige Fragen zur Forschungsintegrität auf, da die bekannte Neigung von LLMs, ungenaue Informationen, gefälschte Referenzen und voreingenommene Inhalte zu generieren, Risiken für die wissenschaftliche Genauigkeit birgt.
[1] Dmitry Kobak et al. ,Delving into LLM-assisted writing in biomedical publications through excess vocabulary.Sci. Adv.11, eadt3813 (2025). DOI:https://doi.org/10.1126/sciadv.adt3813