Zpracování přirozeného jazyka v službě Arcanum

V posledním desetiletí výrazně vzrostla potřeba komunikovat se stroji a systémy okolo nás způsobem, který je v souladu s naším přirozeným jazykem. Představte si digitálního asistenta pro váš smartfón nebo dokonce pokročilý překladač: chceme, aby nám software rozuměl i v polovičních větách a na základě toho vykonával pokyny. Tyto systémy jsou založeny na umělé inteligenci, která umožňuje stroji interpretovat příkazy na vyšší úrovni, díky čemu lze získat přesnější a relevantnější informace.

Uživatelé služby Arcanum jsou rovněž podporováni postupem zpracování přirozeného jazyka s názvem model BERT. V tomto článku popisujeme postupy zpracování prováděné pomocí modelu BERT a rozsah a budoucí plány služeb založených na této technologii.

V krátkosti o modelu BERT

Tento model strojového učení vyvinula společnost Google kolem roku 2018 s cílem umožnit počítači lépe popsat přirozený jazyk lidí pomocí matematiky, a tím přesněji porozumět výrazům, které zadávají do vyhledávače. Význam modelu spočívá ve schopnosti služby BERT interpretovat slova v kontextu.

Jak napovídá samotný termín, strojové učení je založeno na tom, že stroj nejprve naučíte úkol, který má provést. V našem případě se musel model BERT nejprve naučit maďarský jazyk. Za tímto účelem jsme spustili model na vlastním korpusu společnosti Arcanum, který obsahuje 10 miliard maďarských slov *. Po spuštění model virtuálně přečetl takřka 10 miliard slov digitalizovaného textu a hledá matematické souvislosti a vzorce. To umožňuje modelu - po určitém doladění - provádět úlohy s maďarskými texty. Na základě tohoto modelu pak můžeme vyvinout řadu služeb pro uživatele služby Arcanum.

Rozpoznávání vlastních jmen

Při analýze zvyklostí uživatelů bylo zjištěno, že nejčastěji se v naší databázi vyhledávají vlastní jména, jako jsou osobní jména, jména míst a názvy institucí. Pravopis těchto vlastních jmen - zejména jmen osobních - se však může několikrát změnit v závislosti na aktuální módě nebo politických ideologiích. Nicméně badatelé jsou si vědomi běžného jevu, že s vlastním jménem může být spojeno několik entit, mezi nimiž je obtížné rozlišit vyhledávání. Například po zadání Kossuthova jména získáte výsledky nejen o této historické osobnosti, ale také o mnoha školách, institucích a názvech ulic, které nesou jeho jméno. Mohli bychom však zmínit i město Lenti (po maďarsky: „níže““) v okrese Zala, pro které se ve výsledcích vyhledávání často objevuje jednoduché sousloví "níže uvedený citát".

Pro zlepšení rozpoznávání vlastních podstatných jmen jsme proto použili již dřívě zmíněný model BERT tak, že jsme v korpusu o téměř 8000 paragrafů (přibližně 450 tisíc slov) jsme označili (neboli „anotovali“) deset kategorií vlastních podstatných jmen, jako jsou osoby, instituce, místa, adresy, události atd. Tento soubor ručně označených dat sloužil jako tréninková data pro model BERT k rozpoznávání vlastních jmen v celém souboru dat ADT.

Ferenc Deák se narodil 17. října 1803 v Söjtöru a strávil zde své dětství. Jeho kariéra sahala od reformní opozice až po navrhnutí mírové smlouvy z roku 1867 , který ukončil revoluci a válku za nezávislost. V letech 1832-36 byl vyslancem Zálské župy, v roce 1848 byl ministrem spravedlnosti první odpovědné maďarské vlády. Po revoluci odešel na důchod do Kehidy a v roce 1854 se přestěhoval do Pešti, kde vytvořil své velké dílo - mírovou smlouvu. Výstava v jeho rodišti se věnuje této životní cestě.

Obrázek 1. Ukázky z databáze pro učení vlastních jmen

Tato vlastní jména se zobrazí také při použití volného textového vyhledávání ADT, kdy se pod vyhledávacím polem zobrazí návrhy k vyhledávání. Jakmile uživatel začne psát určité slovo, umělá inteligence pracující ve vyhledávači se pokusí najít v databázi nejvíce odpovídajících vlastních jmen a nabídne je jako možné hledané výrazy na základě pravděpodobnosti. Systém si poradí i s jednoduchými překlepy a odlišným pravopisem.

*Obrázek 2. Variace na bývalého vietnamského prezidenta*

Automatické zodpovězení otázky

Výzvou pro lingvisty i programátory již dlouho je, jak dokáží stroje interpretovat a odpovídat na otázky kladené lidským přirozeným jazykem. v roce 2018 Google spustil službu Talk to Books , ve které umělá inteligence interpretuje otázku a snaží se získat smysluplné a relevantní odpovědi z plného textu více než 100 000 knih. Protože je tato služba také založena na modelu BERT, začali jsme v společnosti Arcanum experimentovat s podobnou metodou vyhledávání. Za tímto účelem jsme vytvořili vlastní soubor učebních dat: vybrali jsme 100 článků Wikipedie v maďarštině, napsali k nim přibližně 10 000 otázek a poté jsme v článcích označili odpovědi na otázky. Základem pro trénování algoritmu je kombinace otázek a odpovědí navržených v přirozeném jazyce. Výsledkem tréninku je, že se algoritmus naučil interpretovat otázky v maďarštině a dokáže najít odpovědi na otázky v libovolně velké databázi.

Bronx

Bronx je nejsevernější čtvrť města New York, která se shoduje s okresem Bronx. Z pěti městských čtvrtí je tato jediná, která leží více na pevnině než na ostrovu.

Podle sčítání z roku 2010 měl 1 385 108 obyvatel. Kdyby každá čtvrť byla samostatným městem, byl by Bronx devátým nejlidnatějším městem v USA. V 60. letech 20. století počet obyvatel klesl a poté se začal opět zvyšovat. Nejvíce obyvatel bylo napočítáno v roce 1950. Bronx je čtvrtá nejlidnatější z pěti newyorských čtvrtí a pátá nejlidnatější čtvrt v newyorské metropolitní oblasti. Ačkoli se mu hovorově říká jednoduše "Bronx", oficiální název čtvrti neobsahuje žádný člen ("The").

Jeho název je odvozen od řeky Bronx , a protože řeky se v angličtině obvykle používají s podstatným jménem (např. "the Hudson"), je toto jméno stále v názvu čtvrti. Řeka byla pojmenována podle švédského námořního kapitána Jonase Broncka, který v roce 1641 vlastnil panství o rozloze 2 km² mezi řekou Harlem a řekou Bronx (nebo Aquahung, jak se tehdy říkalo indiánsky).

Kolik obyvatel má Bronx?
Která je nejsevernější čtvrt v New Yorku?
Kolik je v New Yorku čtvrtí?
Po čem je pojmenována čtvrt Bronx?
Po osobě jaké národnosti je pojmenována řeka Bronx?
Čím se živil Jonas Bronck?
~~Která je nejvyšší budova v Bronxu?~~

Obrázek 3. Ukázka z databáze pro trénování s odpověďmi na otázky

Naším cílem je v budoucnosti usnadnit uživatelům hledání relevantních odpovědí na jejich otázky.

Naši odpověď na nejdůležitější otázku založenou na maďarském lexikonu si můžete vyzkoušet zde !

* Korpus je lingvistický termín označující soubor skutečně se vyskytujících písemných nebo zaznamenaných mluvených jazykových dat.

Vyzkoušejte zde

Stovky vědeckých časopisů, úředních věstníků, deníků, týdeníků, knih v maďarštině, rumunštině, češtině a slovenštině, ročně přibývá více než 10 milionů nových stránek.

Vyzkoušet

Vyzkoušejte zde

Stovky vědeckých časopisů, úředních věstníků, deníků, týdeníků, knih v maďarštině, rumunštině, češtině a slovenštině s přibližně 10 miliony nových stran ročně.

Vyzkoušet

Zpracování přirozeného jazyka v službě Arcanum

Obsah

V krátkosti o modelu BERT

Rozpoznávání vlastních jmen

Automatické zodpovězení otázky

Vyzkoušejte zde