Verarbeitung natürlicher Sprache in Arcanum

Im letzten Jahrzehnt ist das Bedürfnis, mit den Maschinen und Systemen um uns herum auf eine Weise kommunizieren zu können, die unserem natürlichen Sprachgebrauch entspricht, erheblich gewachsen. Denken Sie an einen digitalen Assistenten für Ihr Smartphone oder sogar an ein fortschrittliches Übersetzungsprogramm: Wir wollen, dass die Software uns versteht, selbst in Halbsätzen, und dann auf dieser Grundlage Anweisungen ausführt. Solche Systeme basieren auf künstlicher Intelligenz, die es der Maschine ermöglicht, den Befehl auf einer höheren Ebene zu interpretieren, so dass wir genauere und relevantere Informationen erhalten können.

Arcanum-Benutzer werden außerdem durch ein Verfahren zur Verarbeitung natürlicher Sprache unterstützt, das als BERT-Modell („Natural Language Processing“ in der englischen Literatur) bezeichnet wird. In diesem Artikel beschreiben wir die Verarbeitungsverfahren mit dem BERT-Modell, den Umfang der darauf basierenden Dienste und zukünftige Pläne.

Kurz zum BERT-Modell

Dieses Modell für maschinelles Lernen wurde 2018 von Google mit dem Ziel entwickelt, Computern zu ermöglichen, den natürlichen Sprachgebrauch von Menschen mithilfe von Mathematik besser zu beschreiben und so die Begriffe, die sie in ihre Suchmaschine eingeben, besser zu verstehen. Die Bedeutung des Modells liegt in der Fähigkeit von BERT, Wörter im Kontext zu interpretieren.

Wie der Name schon sagt, basiert das maschinelle Lernen darauf, dass man der Maschine zunächst die zu erfüllende Aufgabe beibringt. In unserem Fall musste das BERT-Modell die ungarische Sprache lernen. Zu diesem Zweck haben wir das Modell mit dem Arcanum-eigenen Korpus von 10 Milliarden ungarischen Wörtern* getestet. Im laufenden Betrieb liest das Modell praktisch alle 10 Milliarden Wörter des digitalisierten Textes und sucht dabei nach mathematischen Beziehungen und Mustern. So kann das Modell nach einer gewissen Feinabstimmung Aufgaben mit ungarischen Texten lösen. Auf der Grundlage dieses Modells können wir dann eine Reihe von Diensten für Arcanum-Nutzer entwickeln.

Erkennung von Eigennamen

Bei der Analyse der Benutzergewohnheiten wurde festgestellt, dass die häufigsten Suchbegriffe in unserer Datenbank Eigennamen sind, wie z.B. Personennamen, Ortsnamen, Namen von Institutionen. Die Schreibweise dieser Eigennamen, insbesondere von Personennamen, kann sich jedoch je nach aktueller Mode oder politischen Vorstellungen mehrmals ändern. Darüber hinaus ist es den Forschern allgemein bekannt, dass ein Eigenname zu mehreren Entitäten gehören kann, zwischen denen eine Unterscheidung bei der Suche schwierig ist. Wenn man beispielsweise den Namen KOSSUTH eingibt, erhält man nicht nur Ergebnisse für die historische Figur, sondern auch für die vielen Schulen, Einrichtungen und Straßennamen, die seinen Namen tragen. Wir könnten aber auch die Stadt Lenti im Komitat Zala erwähnen, für die eine Suche oft das einfache Adjektiv „das Zitat unten“ ergibt. [lenti = (dort) unten]

Um die Erkennung von Eigennamen zu verbessern, wurde das BERT-Modell verwendet, um zehn Kategorien von Eigennamen wie Person, Institution, Ort, Adresse, Ereignis usw. in einer Textdatei mit etwa 8.000 Absätzen (etwa 450.000 Wörter) zu annotieren. Dieser manuell annotierte Datensatz wurde als Trainingsdaten verwendet, um das BERT-Modell in die Lage zu versetzen, Eigennamen im gesamten ADT-Datensatz zu erkennen.

DEÁK Ferenc wurde am 17. Oktober 1803 in Söjtör geboren und verbrachte dort seine Kindheit . Seine Karriere reichte von der reformistischen Opposition bis zur Ausarbeitung des Österreichisch-Ungarischen Ausgleichs von 1867 , der die Revolution und den Unabhängigkeitskrieg beendete. In den Jahren 1832-36 war er Botschafter des Komitats Zala im Landtag und 1848 Justizminister in der ersten verantwortlichen ungarischen Regierung. Nach der Revolution zog er sich nach Kehida zurück und zog dann 1854 nach Pest , um sein großes Werk zu schaffen – den Österreichisch-Ungarischen Ausgleich. In seinem Geburtsort lässt die Ausstellung diesen Lebensweg Revue passieren.

Abbildung 1 Beispiel aus der Eigennamen-Lehrdatenbank

Diese Eigennamen werden auch bei der Freitextsuche des ADT angezeigt und die Suchvorschläge erscheinen unterhalb des Suchfeldes. Sobald der Benutzer ein Wort eintippt, versucht die künstliche Intelligenz in der Suchmaschine, die am besten passenden Eigennamen in der Datenbank zu finden und bietet diese auf einer probabilistischen Basis als mögliche Suchbegriffe an. Das System kann auch mit einfachen Tippfehlern und unterschiedlichen Schreibweisen umgehen.

Abbildung 2 Variationen über den ehemaligen vietnamesischen Präsidenten

Automatische Beantwortung der Frage

Die Herausforderung für Linguisten und Programmierer besteht seit langem darin, wie Maschinen Fragen interpretieren und beantworten können, die in natürlicher menschlicher Sprache gestellt werden. Im Jahr 2018 startete Google Talk to Books , einen Dienst, bei dem künstliche Intelligenz eine gestellte Frage interpretiert und versucht, sinnvolle, relevante Antworten aus dem Volltext von über 100.000 Büchern zu extrahieren. Da dieser Dienst ebenfalls auf dem BERT-Modell basiert, das wir bereits gesehen haben, haben wir bei Arcanum begonnen, mit einer ähnlichen Suchmethode zu experimentieren. Zu diesem Zweck haben wir unseren eigenen Satz von Lerndaten erstellt: Wir haben 100 Wikipedia-Artikel in ungarischer Sprache ausgewählt, etwa 10.000 Fragen dazu geschrieben und dann die Antworten auf die Fragen in den Artikeln markiert. Die in natürlicher Sprache formulierten Fragen und die darauf gegebenen Antworten bilden die Grundlage für das Training des Algorithmus. Als Ergebnis des Trainings lernte der Algorithmus, in ungarischer Sprache formulierte Fragen zu interpretieren und kann Antworten auf die Fragen in jeder großen Datenbank finden.

Bronx

Die Bronx ist der nördlichste Stadtbezirk von New York City, der mit dem Bronx County zusammenfällt. Es ist der einzige der fünf Bezirke der Stadt, dessen größerer Teil an Land und nicht auf der Insel liegt.

Nach der Volkszählung von 2010 hatte er 1.385.108 Einwohner. Würde man jeden Bezirk als eigene Stadt betrachten, wäre die Bronx die neuntgrößte Stadt der USA (nach Einwohnerzahl). Die Bevölkerungszahl ging in den 1960er Jahren zurück und begann dann wieder zu steigen. Die Bronx ist der viertbevölkerungsreichste der fünf New Yorker Stadtbezirke und der fünftbevölkerungsreichste Bezirk im Großraum New York. Obwohl sie umgangssprachlich einfach als „The Bronx“ bezeichnet wird, enthält der offizielle Name des Bezirks keinen Artikel („The“).

Der Name leitet sich vom Bronx River ab, und da Flüsse im Englischen üblicherweise mit einem Artikel verwendet werden (z.B. „the Hudson“), wurde dieser im Namen des Bezirks beibehalten. Der Fluss wurde nach dem Schweden Jonas BRONCK benannt, der als Kapitän zur See fuhr und 1641 ein 2 km² großes Grundstück zwischen dem Harlem River und dem Bronx (oder Aquahung, wie die Indianer es damals nannten) besaß.

  1. Wie viele Einwohner hat die Bronx?
  2. Welches ist der nördlichste Stadtbezirk von New York?
  3. Wie viele Stadtbezirke gibt es in New York?
  4. Wonach ist die Bronx benannt?
  5. Welche Nationalität hat die Person, nach der der Bronx River benannt wurde?
  6. Was war der Beruf von Jonas Bronck?
  7. Welches ist das höchste Gebäude in der Bronx?

Abbildung 3 Beispiel aus der Schülerdatenbank für die Frage-Antwort-Übung

Unser Ziel ist es, es unseren Nutzern so einfach wie möglich zu machen, relevante Antworten auf ihre Fragen zu finden.

Hier können Sie unseren Fragebeantworter auf der Grundlage der wichtigsten ungarischen Lexika ausprobieren!


* Ein Korpus ist ein linguistischer Begriff, der eine Sammlung von tatsächlich vorkommenden schriftlichen oder aufgezeichneten gesprochenen Sprachdaten bezeichnet.

Sie können es hier testen

Hunderte gedruckte wissenschaftliche Zeitschriften, offizielle Zeitungen, Tageszeitungen, Wochenzeitungen und Büchern in ungarischer, rumänischer, tschechischer und slowakischer Sprache mit etwa 10 Millionen neuen Seiten pro Jahr.

Testen
Sie können es hier testen

Hunderte gedruckte wissenschaftliche Zeitschriften, offizielle Zeitungen, Tageszeitungen, Wochenzeitungen und Büchern in ungarischer, rumänischer, tschechischer und slowakischer Sprache mit etwa 10 Millionen neuen Seiten pro Jahr.

Testen

Arcanum logo

Arcanum is an online publisher that creates massive structured databases of digitized cultural contents.

Über uns Kontakt Press room

Languages