VORSCHAU
PRESSETERMINE
AKTUELLES PRESSEFOTO
IR Nachrichten
27.11.2024 15:39
MS Industrie AG
27.11.2024 13:10
Wiener Privatbank SE
27.11.2024 13:08
Wiener Privatbank SE
EUROPA NACHRICHTEN
MEDIEN
Di, 17.10.2023 11:30
pte20231017018 Technologie/Digitalisierung, Medien/Kommunikation
KI-Modell "DistilBERT" führt bei Schlagworten
ZBW-Forscher extrahieren wichtige Fachbegriffe automatisch aus wissenschaftlichen Artikeln
Kiel (pte018/17.10.2023/11:30) - Das vortrainierte "BERT"-Sprachmodell "DistilBERT" von Forschern des ZBW - Leibniz-Informationszentrum Wirtschaft ( https://www.zbw.eu ) ist in der automatisierten Schlagwort-Extraktion besonders effektiv. Darüber hinaus bietet es die Möglichkeit, den Standard-Thesaurus Wirtschaft (STW) mit 6.000 Schlagwörtern und über 20.000 alternativen Sucheinstiegen in Deutsch und Englisch, unterstützt durch KI-Methoden, zu aktualisieren. DistilBERT konkurrenzlos Die Experten haben eine Methode entwickelt und getestet, die wichtige Fachbegriffe automatisch aus wissenschaftlichen Artikeln extrahiert, insbesondere aus Titeln und Abstracts. Das Team hat hierzu vortrainierte BERT-Sprachmodelle eingesetzt und verglich deren Leistungsfähigkeit mit konventionellen Methoden wie "TFIDF", "TextRank" und "KeyBERT". Die aktuelle Studie zeigt, dass das BERT-Modell DistilBERT insgesamt am effektivsten in der Schlagwort-Extraktion ist. Es konnte nicht nur präzise spezifische Schlüsselwörter aus den Wirtschaftswissenschaften identifizieren, sondern auch mehr potenzielle neue Begriffe für den Standard-Thesaurus Wirtschaft vorschlagen als konkurrierende Methoden. ZBW-Datenbank als Grundlage Die Datengrundlage bildete ein Datensatz der ZBW, der der Datenbank "ECONIS" entstammt. Es wurden Titel, Abstracts und ausgewählte Metadaten, aber keine Volltexte, aus wissenschaftlichen Publikationen extrahiert. Die Metadaten umfassen Erscheinungsjahr und Sprache der Werke. Zudem wurden vorhandene Schlagwörter verschiedener Art ergänzt. So zum Beispiel Stichwörter, die von den Autoren frei gewählt wurden, sowie auch vorhandene normierte Schlagwörter. Die Analyse hat sich auf Publikationen zwischen 2009 und 2021 beschränkt und resultierte in einem Datensatz von insgesamt beachtlichen 575.000 Einträgen.
(Ende)
PRESSETEXT.TV
PORR rechnet mit anhaltender Baukonjunktur 30.10.2024 ETARGET
FOCUSTHEMA
SPECIALS
Werbung
middleAdvertising
|