VORSCHAU
PRESSETERMINE

AKTUELLES PRESSEFOTO

IR Nachrichten


WETTER
Graz: bedeckt
24°
Innsbruck: Regen
22°
Linz: Regen
22°
Wien: bedeckt
20°
© wetter.net

Stadtname / PLZ

AKTIENKURSE
 
MEDIEN
Di, 17.10.2023 11:30
Meldung drucken Artikel weiterleiten
pte20231017018 Technologie/Digitalisierung, Medien/Kommunikation

KI-Modell "DistilBERT" führt bei Schlagworten

ZBW-Forscher extrahieren wichtige Fachbegriffe automatisch aus wissenschaftlichen Artikeln
Künstliche Intelligenz: bereichert Forschung dank Beschlagwortung (Bild: pixabay.com, geralt)
Künstliche Intelligenz: bereichert Forschung dank Beschlagwortung (Bild: pixabay.com, geralt)

Kiel (pte018/17.10.2023/11:30) - Das vortrainierte "BERT"-Sprachmodell "DistilBERT" von Forschern des ZBW - Leibniz-Informationszentrum Wirtschaft ( https://www.zbw.eu ) ist in der automatisierten Schlagwort-Extraktion besonders effektiv. Darüber hinaus bietet es die Möglichkeit, den Standard-Thesaurus Wirtschaft (STW) mit 6.000 Schlagwörtern und über 20.000 alternativen Sucheinstiegen in Deutsch und Englisch, unterstützt durch KI-Methoden, zu aktualisieren.

DistilBERT konkurrenzlos

Die Experten haben eine Methode entwickelt und getestet, die wichtige Fachbegriffe automatisch aus wissenschaftlichen Artikeln extrahiert, insbesondere aus Titeln und Abstracts. Das Team hat hierzu vortrainierte BERT-Sprachmodelle eingesetzt und verglich deren Leistungsfähigkeit mit konventionellen Methoden wie "TFIDF", "TextRank" und "KeyBERT".

Die aktuelle Studie zeigt, dass das BERT-Modell DistilBERT insgesamt am effektivsten in der Schlagwort-Extraktion ist. Es konnte nicht nur präzise spezifische Schlüsselwörter aus den Wirtschaftswissenschaften identifizieren, sondern auch mehr potenzielle neue Begriffe für den Standard-Thesaurus Wirtschaft vorschlagen als konkurrierende Methoden.

ZBW-Datenbank als Grundlage

Die Datengrundlage bildete ein Datensatz der ZBW, der der Datenbank "ECONIS" entstammt. Es wurden Titel, Abstracts und ausgewählte Metadaten, aber keine Volltexte, aus wissenschaftlichen Publikationen extrahiert. Die Metadaten umfassen Erscheinungsjahr und Sprache der Werke. Zudem wurden vorhandene Schlagwörter verschiedener Art ergänzt.

So zum Beispiel Stichwörter, die von den Autoren frei gewählt wurden, sowie auch vorhandene normierte Schlagwörter. Die Analyse hat sich auf Publikationen zwischen 2009 und 2021 beschränkt und resultierte in einem Datensatz von insgesamt beachtlichen 575.000 Einträgen.

(Ende)

Aussender: pressetext.redaktion
Ansprechpartner: Florian Fügemann
Tel.: +43-1-81140-313
E-Mail:
Website: www.pressetext.com
pressetext.redaktion
   
So wurde bewertet:
Weitersagen
Share Share |
Social Media
ETARGET

FOCUSTHEMA


SPECIALS


Werbung
middleAdvertising