{"id":11476,"date":"2024-10-31T18:21:30","date_gmt":"2024-10-31T17:21:30","guid":{"rendered":"https:\/\/textplus.hypotheses.org\/?p=11476"},"modified":"2024-10-31T18:21:31","modified_gmt":"2024-10-31T17:21:31","slug":"entity-linking-eine-text-io-lecture","status":"publish","type":"post","link":"https:\/\/textplus.hypotheses.org\/11476","title":{"rendered":"Entity Linking, eine Text+ IO-Lecture"},"content":{"rendered":"\n<p><em>Autor: Felix Helfer, S\u00e4chsische Akademie der Wissenschaften zu Leipzig<\/em><\/p>\n\n\n\n<p>Am 18. September 2024 fand die bereits 16. Text+ IO-Lecture statt &#8211; diesmal zum Thema <strong><em>Entity Linking<\/em><\/strong>. Die Text+ IO-Lectures sind offen f\u00fcr alle Interessierten und greifen infrastrukturbezogene Themen auf. IO tritt in Text+ in einer Providerrolle auf und ermittelt zusammen mit den anderen Task Areas wissenschaftliche Bedarfe f\u00fcr Angebote von Text+. Daraus ergibt sich ein Bedarf an Information und Beratung, den IO durch die regelm\u00e4\u00dfige, niedrigschwellige Reihe der IO-Lectures bedient. Zus\u00e4tzlich decken die IO-Lectures Themen ab, die \u00fcber Text+ hinaus in der NFDI und f\u00fcr Forschungsinfrastrukturen im Allgemeinen von Interesse sind.<\/p>\n\n\n\n<p>Entity Linking ist die Verlinkung von in einem Text genannten Entit\u00e4ten (Personen, Orten, Organisationen, etc.) mit passenden Eintr\u00e4gen in einer Wissensbasis, etwa der<em> <\/em><a href=\"https:\/\/gnd.network\/Webs\/gnd\/DE\/Home\/home_node.html\"><em>Gemeinsamen Normdatei<\/em><\/a> (GND) oder <a href=\"https:\/\/www.wikidata.org\/wiki\/Wikidata:Main_Page\"><em>Wikidata<\/em><\/a>.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXeKMhNA5m7AnnGomVyXPsEr06jtu-kG-I1CWXf1GQnvzF3iM2jqgb5ALp8y_wXM8TKRVOYHNMype1Q6FEvmAHx-ncoN4Ve6F_i0XagrxVXMLIhELcz-0zWPXxuy2LaY5wsc1hAR3xbNatRI7ya_meGrO-LI?key=5tXup0zmNewRn7touoVLJiam\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Entity-Linking veranschaulicht dargestellt.<\/em><\/p>\n\n\n\n<p>Nach einer kurzen Einf\u00fchrung des Themas durch Felix Helfer (SAW), wurde zun\u00e4chst von Alexander Bartmu\u00df (SAW) ein im Aufbau befindlicher Datensatz vorgestellt, f\u00fcr den auch Entity Linking eine zentrale Rolle spielt: die <em>\u201cBriefe und Akten zur Kirchenpolitik Friedrichs des Weisen und Johanns des Best\u00e4ndigen 1513 bis 1532<\/em>\u201d aus dem gleichnamigen Projekt der SAW. Den Teilnehmer:innen der Lecture wurde ein Einblick in das Projekt und insbesondere die Arbeitsschritte, Vorteile und Herausforderungen der manuellen Verlinkung der dort auftretenden Entit\u00e4ten gegeben. Denn so n\u00fctzlich die Anreicherung von textbasierten Daten auf diese Weise ist, so aufw\u00e4ndig ist die tats\u00e4chliche Umsetzung des konkreten Vorhabens.<\/p>\n\n\n\n<p>Ist eine manuelle Bearbeitung nicht umsetzbar, k\u00f6nnten Verfahren des automatischen Entity Linkings weiterhelfen. Doch wie verl\u00e4sslich sind bestehende L\u00f6sungsans\u00e4tze, insbesondere f\u00fcr deutsche Forschungsdaten? Hierzu hat Pia Schwarz (IDS) ihr Benchmark vorgestellt, welches die Performanz existierender Werkzeuge untersucht. Das Fazit des Benchmarks: Qualit\u00e4t in allen F\u00e4llen definitiv ausbauf\u00e4hig!<\/p>\n\n\n\n<p>Au\u00dferdem wurde eine in Arbeit befindliche Untersuchung eines LLM-basierten Ansatzes via Prompting gezeigt, um zuk\u00fcnftig vielleicht bessere M\u00f6glichkeiten zur Verf\u00fcgung zu haben.Dabei werden zun\u00e4chst verschiedene Kandidaten inklusive Beschreibung f\u00fcr eine Enit\u00e4t aus einer Wissensbasis extrahiert und anschlie\u00dfend ein LLM f\u00fcr die Disambiguierung gepromptet. Erste Experimente haben gezeigt, dass die Ergebnisse besser sind als die Modelle, die zuvor evaluiert wurden.&nbsp;<\/p>\n\n\n\n<p>Mit dieser Hoffnung begann auch der zweite Teil der Lecture, der sich vor allem um laufende Arbeiten in Text+ zum Thema Entity Linking drehte. Zun\u00e4chst wurden Experimente mit sogenannten \u201c<em>Entity-Embeddings<\/em>\u201d auf Daten des Wortschatz Leipzig vorgestellt. Hierf\u00fcr werden f\u00fcr GND-Entit\u00e4ten Embeddings aus Kontextdaten (genauer: Wikipedia-Artikel zu den jeweiligen Entit\u00e4ten) erzeugt, welche dann \u00fcber g\u00e4ngige \u00c4hnlichkeitsmetriken mit Embeddings von Entit\u00e4ten aus einem Eingabetext und deren Kontext verglichen werden k\u00f6nnen.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXfhp3iDJdtlKzdQNtSNgZ6dA7UR3AW9ICICvAN-yMiCbptBYA6P02z8dWu6lvvwf0wgBG-Ebkwd_ZqZaFRAzP0GcXkp5v28q1wdrB4p1McWRr3Ya7yX3gHrSvic52fcq3LAyO_2zs-pIL7CUcE5uiSLdlxX?key=5tXup0zmNewRn7touoVLJiam\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Entit\u00e4ten-Embeddings als Ansatz f\u00fcr automatische Entit\u00e4ten-Disambiguierung.<\/em><\/p>\n\n\n\n<p>Diesem niederschwelligen Ansatz folgend pr\u00e4sentierte Jonas Richter (Universit\u00e4t Leipzig) seine Abschlussarbeit, in der eine fortschrittlichere Herangehensweise erprobt werden soll: ein neuronales Modell, welches Entit\u00e4ten anhand von in der GND enthaltenen Informationen (wie Orts- und Zeitangaben) verlinkt. Zus\u00e4tzlich soll die <em>Kandidatensuche<\/em>, ein wichtiger Teilschritt der Gesamtaufgabe welcher den initial sehr weiten Suchraum verkleinern soll, gegen\u00fcber einer einfachen Stringsuche verbessert werden &#8211; auch hier sollen Embedding-\u00c4hnlichkeiten helfen, zielsicherer passende Kandidaten in der Wissensbasis zu ermitteln.<\/p>\n\n\n\n<p>Aber nicht nur die Erzeugung neuer Datens\u00e4tze war Thema dieser Werkschau, auch die Anwendung bereits annotierter Datens\u00e4tze sollte nicht zu kurz kommen. So wurde die Lecture mit einem Einblick in eine Erweiterung der <strong><em>F\u00f6derierte Inhaltssuche<\/em><\/strong> (FCS) abgeschlossen, welche an der SAW entwickelt wird.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh7-rt.googleusercontent.com\/docsz\/AD_4nXfsGYEug8bf7OXNwdkmGOMduGPvXkdaSRBAXj6OxUHl3UTi_CYoqwZlCMwWLJ-Z5HfLB1NxJVhpdfxB3KmMvtVCCBxmi4p9LdUXBQRIAcNARIUlIYCeZ3kGenGOjOYUdQoXsG1LrglsW2gdVALhRTICKADb?key=5tXup0zmNewRn7touoVLJiam\" alt=\"\" \/><\/figure>\n\n\n\n<p><em>Entit\u00e4ten-basierte Inhaltssuche in der Text+ FCS<\/em><strong><em> <\/em><\/strong><em>auf Daten der Briefe und Akten zur Kirchenpolitik.<\/em><\/p>\n\n\n\n<p>Die FCS ist, das verr\u00e4t bereits ihr Name, eine Spezifikation und Plattform zur <em>inhaltlichen <\/em>Suche in <em>verteilten <\/em>(f\u00f6derierten)<em> <\/em>Ressourcen. Viele Datenbest\u00e4nde in Text+ sind bereits \u00fcber die projekteigene FCS durchsuchbar. Sie wird jedoch auch best\u00e4ndig erweitert, so eben um eine entit\u00e4tenbasierte Inhaltssuche, um etwa eine Entit\u00e4t anhand ihrer GND-ID in einem entsprechend annotierten Datensatz finden zu k\u00f6nnen. Und so endete diese Lecture auch mit der Vorf\u00fchrung des bereits lauff\u00e4higen Prototypen dieser <strong><em>EntityFCS<\/em><\/strong> &#8211; mit Daten aus den anfangs gezeigten <em>Briefen und Akten zur Kirchenpolitik<\/em>!<\/p>\n\n\n\n<p>Dass das Thema viele Forschende interessiert und konkrete Praxisrelevanz aufweist, zeigte sich nicht nur an der Anzahl der Teilnehmer:innen, sondern auch an den regen Frage- und Diskussionsrunden zwischen den Beitr\u00e4gen. Entity Linking wird in Text+, so l\u00e4sst es sich nach dieser Lecture vermuten, weiterhin im Gespr\u00e4ch bleiben!<\/p>\n\n\n\n<p>Weitere Informationen zur Veranstaltung: <a href=\"https:\/\/events.gwdg.de\/event\/913\/\">https:\/\/events.gwdg.de\/event\/913\/<\/a> bzw. <a href=\"https:\/\/text-plus.org\/en\/aktuelles\/veranstaltungen\/2024-09-18-io-lecture-entitylinking\/\">https:\/\/text-plus.org\/en\/aktuelles\/veranstaltungen\/2024-09-18-io-lecture-entitylinking\/<\/a>&nbsp;<\/p>\n\n\n\n<p><strong>Vortragende (in Reihenfolge der Beitr\u00e4ge):<\/strong><\/p>\n\n\n\n<p>Felix Helfer (SAW) Alexander Bartmu\u00df (SAW), Pia Schwarz (IDS), Jonas Richter (Universit\u00e4t Leipzig)<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Autor: Felix Helfer, S\u00e4chsische Akademie der Wissenschaften zu Leipzig Am 18. September 2024 fand die bereits 16. Text+ IO-Lecture statt &#8211; diesmal zum Thema Entity Linking. Die Text+ IO-Lectures sind offen f\u00fcr alle Interessierten&#46;&#46;&#46;<\/p>\n","protected":false},"author":67985,"featured_media":7376,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_license":"","publish_to_discourse":"","publish_post_category":"","wpdc_auto_publish_overridden":"","wpdc_topic_tags":"","wpdc_pin_topic":"","wpdc_pin_until":"","discourse_post_id":"","discourse_permalink":"","wpdc_publishing_response":"","wpdc_publishing_error":"","footnotes":""},"categories":[958,15],"tags":[134,1282,23,921,1287,69,933],"ppma_author":[1912],"class_list":["post-11476","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-felix-helfer","category-infrastruktur-betrieb","tag-community","tag-entity-linking","tag-gnd","tag-io","tag-lecture","tag-reihe","tag-saw"],"authors":[{"term_id":1912,"user_id":67985,"is_guest":0,"slug":"felixhelfer","display_name":"Felix Helfer","avatar_url":"https:\/\/secure.gravatar.com\/avatar\/9fb453e157a879b0ae9b5718bfea15c02c951734bde642d2d70daafea906159a?s=96&d=blank&r=g","1":"","2":"","3":"","4":"","5":"","6":"","7":"","8":""}],"_links":{"self":[{"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/posts\/11476","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/users\/67985"}],"replies":[{"embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/comments?post=11476"}],"version-history":[{"count":1,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/posts\/11476\/revisions"}],"predecessor-version":[{"id":11481,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/posts\/11476\/revisions\/11481"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/media\/7376"}],"wp:attachment":[{"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/media?parent=11476"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/categories?post=11476"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/tags?post=11476"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/textplus.hypotheses.org\/wp-json\/wp\/v2\/ppma_author?post=11476"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}