KI-Sprachmodelle unterstützen bei Reviews

"Large Language Models" erreichen bei schlechten Artikeln eine Überschneidung von 44 Prozent

Bibliothek: Weg zum Buch dauert in der Regel lange (Foto: pixabay.com, ElasticComputeFarm)

Stanford (pte014/20.10.2023/13:30) - Große Sprachmodelle, sogenannte "Large Language Models" (LLMs) können einen großen Beitrag zum Verfassen von Reviews zu wissenschaftlichen Publikationen leisten, sagen Forscher der Stanford University ( https://www.stanford.edu ). Laut dem Pulitzer-Preisträger Chris Mooney geht es nur darum, dass sich die besten Ideen durchsetzen. Peer Reviews gibt es seit dem 17. Jahrhundert. Pro Jahr werden rund 5,14 Mio. wissenschaftliche Artikel veröffentlicht. Für die Reviews werden bisher über 100 Mio. Stunden Arbeitszeit investiert.

Immense Kostenersparnis

Ein Forscher wartet derzeit durchschnittlich vier Monate auf die Review seines Artikels. Jährlich entstehen der Studie zufolge durch diesen Vorgang Kosten in Höhe von 2,5 Mrd. Dollar (rund 2,4 Mrd. Euro). Zudem ist es schwierig, qualifizierte Kollegen zu finden, die ohne Bezahlung arbeiten. Laut Weixin Liang wird es zudem immer schwieriger, qualitative hochwertige Peer Reviews zu bekommen. Davon betroffen sind vor allem jüngere Wissenschaftler oder Forscher, die unter unzureichend finanzierten Rahmenbedingungen arbeiten.

Die Forscher haben ihre Theorie überprüft, indem sie das Feedback zu mehreren Tausend Seiten aus den "Nature"-Zeitschriften und der "International Conference on Learning Representations ( https://iclr.cc )" zu maschinellem Lernen mit von GPT-4 erstellten Reviews verglichen. Sie konnten dabei eine Überschneidung der von Menschen und einem Algorithmus erstellten Reviews im Ausmaß von 31 und 39 Prozent feststellen. Bei schwächeren Einreichungen, die abgelehnt wurden, schnitt GPT-4 mit einer Überschneidung von 44 Prozent sogar noch besser ab.

LLMs ergänzen Menschen

Als die Verfasser der Artikel kontaktiert wurden, gab mehr als die Hälfte an, dass die Anmerkungen von GPT-4 hilfreich oder sogar sehr hilfreich waren. 80 Prozent der Wissenschaftler betonen, dass das Feedback von LLMs hilfreicher war als das von zumindest einigen menschlichen Anmerkungen. Liang kommt zu dem Schluss, dass sich LLMs und menschliches Feedback ergänzen können. Das sei besonders dann der Fall, wenn es um die Unterstützung von Verfassern geht, deren Artikel erhebliche Korrekturen erfordern.

"Werden diese Bedenken bereits vor der Review geäußert, könnte das für den gesamten Prozess von Vorteil sein. Ein Forscher, dessen Artikel überprüft worden war, betont, dass GPT-4 Argumente brachte, die von den menschlichen Prüfenden nicht bemerkt worden waren. Die aktuelle Studie mahnt jedoch zur Vorsicht, dass LLMs kein Ersatz für Menschen sind. Zu den Beschränkungen gehöre, dass die Reviews häufig zu vage ausfallen und ihnen fallweise der wirkliche Einblick in die oft sehr komplexe Thematik fehlt.

(Ende)