Spracovanie prirodzeného jazyka od spoločnosti Arcanum

V poslednom desaťročí sa výrazne zvýšila potreba komunikovať so strojmi a systémami okolo nás spôsobom, ktorý je v súlade s naším prirodzeným jazykom. Predstavte si digitálneho asistenta pre váš smartfón alebo dokonca pokročilý prekladač: chceme, aby nám softvér rozumel aj v skrátených vetách a na základe toho vykonával pokyny. Takéto systémy sú založené na umelej inteligencii, ktorá umožňuje stroju interpretovať zadaný príkaz na vyššej úrovni, čo umožňuje získať presnejšie a relevantnejšie informácie.

Používatelia systému Arcanum majú k dispozícii aj postup spracovania prirodzeného jazyka (v anglickej odbornej literatúre: Natural Language Processing), ktorý je známy ako model BERT . V tomto článku opisujeme postupy spracovania vykonávané pomocou modelu BERT, ako aj rozsah a budúce plány služieb na ňom založených.

V krátkosti o modeli BERT

Tento model strojového učenia vyvinula spoločnosť Google okolo roku 2018 s cieľom umožniť počítačovým systémom lepšie opisovať prirodzený jazyk ľudí pomocou matematiky, a tak presnejšie porozumieť výrazom, ktoré zadávajú do vyhľadávača. Význam tohto modelu spočíva v jeho schopnosti interpretovať slová v ich kontexte.

Ako napovedá názov samotného pojmu, strojové učenie je založené na tom, že stroj najprv naučíte úlohu, ktorú má vykonať. V našom prípade sa musel model BERT naučiť maďarský jazyk. Na tento účel sme model spustili na vlastnom korpuse spoločnosti Arcanum, ktorý obsahuje 10 miliárd maďarských slov *. Po spustení model virtuálne prečítal 10 miliárd slov digitalizovaného textu, pričom hľadá matematické vzťahy a vzory. To umožňuje modelu - po určitej miere doladenia - vykonávať úlohy s textami v maďarskom jazyku. Na základe tohto modelu následne môžeme vyvinúť celý rad služieb pre používateľov systému Arcanum.

Rozpoznávanie vlastných mien

Pri analýze správania používateľov sme zistili, že najčastejšie sa v našej databáze vyhľadávajú vlastné mená, ako sú osobné mená, zemepisné názvy a názvy inštitúcií. Písanie týchto vlastných mien - najmä osobných mien - sa však môže niekoľkokrát zmeniť v závislosti od aktuálnej módy alebo politických režimov. Napriek tomu si výskumníci uvedomujú bežný jav, že s vlastným menom môže byť spojených niekoľko rôznych entít, medzi ktorými je ťažké rozlíšiť vyhľadávanie. Napríklad po zadaní mena Kossuth sa vám zobrazia nielen výsledky o tejto historickej osobnosti, ale aj o mnohých školách, inštitúciách a názvoch ulíc, ktoré nesú jeho meno. Mohli by sme však spomenúť aj mesto Lenti v župe Zala, ktoré sa vo výsledkoch vyhľadávania často objavuje ako jednoduché prídavné meno (pozn.: „lenti“ v maďarskom jazyku znamená „nižšie“).

Na zlepšenie rozpoznávania vlastných podstatných mien sme použili už známy model BERT s anotáciou desiatich kategórií vlastných podstatných mien, ako sú osoba, inštitúcia, miesto, adresa, udalosť atď. v existujúcej databáze približne osemtisíc odsekov (asi 450 tisíc slov). Tento súbor ručne označených údajov slúžil ako tréningový základ pre model BERT na rozpoznávanie vlastných mien v celom súbore údajov ADT.

Ferenc Deák sa narodil 17. októbra 1803 v Söjtöri , kde strávil aj svoje detstvo. Jeho kariéra siahala od opozičnej práce počas reformnej éry až po Vyrovnanie z roku 1867 , ktoré ukončilo revolúciu a vojnu za nezávislosť. V rokoch 1832-36 bol vyslancom župy Zala , a v roku 1848 bol ministrom spravodlivosti prvej nezávislej vlády Uhorska. Po revolúcii odišiel do dôchodku v Kehide a následne sa v roku 1854 presťahoval do Pešti , aby vytvoril svoje veľké dielo - Vyrovnanie. Výstava v jeho rodisku približuje túto životnú cestu.

1. obrázok Vzorka z databázy pre učenie vlastných mien

Tieto vlastné mená sa zobrazia aj pri použití voľného textového vyhľadávania ADT, kedy sa pod poľom pre vyhľadávanie zobrazia návrhy na vyhľadávanie. Hneď ako používateľ začne zadávať slovo, umelá inteligencia pracujúca vo vyhľadávači sa pokúsi nájsť najviac zodpovedajúce vlastné mená v databáze a ponúkne ich ako možné hľadané výrazy na základe pravdepodobnosti. Systém si poradí aj s jednoduchými preklepmi a rôznymi typmi pravopisu.

2. obrázok Variácie na niekdajšieho vietnamského prezidenta

Automatické zodpovedanie otázok

Lingvisti, ako aj programátori už dlhšie bojujú s výzvou, ako by dokázali stroje interpretovať a odpovedať na otázky položené ľuďmi v ich prirodzenom jazyku. V roku 2018 spoločnosť Google spustila službu Talk to Books , v ktorej umelá inteligencia interpretuje otázky a snaží sa získať zmysluplné a relevantné odpovede z úplného textu viac ako 100 000 kníh. Keďže aj táto služba je založená na skôr predstavenom modeli BERT, v spoločnosti Arcanum sme začali experimentovať s vytvorením podobnej metódy vyhľadávania. Na tento účel sme vytvorili vlastný súbor učebných údajov: vybrali sme 100 článkov Wikipédie v maďarskom jazyku, napísali sme približne 10 000 otázok, ktoré s nimi súviseli, a následne sme v článkoch označili odpovede na jednotlivé otázky. Kombinácia otázok a odpovedí naformulovaných v prirodzenom jazyku tvorí základ pre trénovanie algoritmu. Výsledkom tréningu je, že algoritmus sa naučil interpretovať otázky v maďarskom jazyku a dokáže nájsť odpovede na otázky v databáze ľubovoľnej veľkosti.

Bronx

Bronx je najsevernejšia štvrť mesta New York, ktorý sa zhoduje so župou Bronx. Z piatich mestských častí je Bronx jedinou štvrťou, ktorá leží viac na pevnine ako na ostrove.

Podľa sčítania obyvateľov z roku 2010 mala 1 385 108 obyvateľov. Ak by každá štvrť bola samostatným mestom, Bronx by bol deviatym najľudnatejším mestom v Spojených štátoch. V 60. rokoch 20. storočia počet obyvateľov klesal, a následne sa opäť začal zvyšovať. Svoju najvyššiu populáciu dosiahla v sčítaní z roku 1950. Bronx je štvrtou najľudnatejšou z piatich newyorských štvrtí a zároveň piatym najľudnatejším obvodom v aglomerácii mesta New York. Hoci hovorovo je známa jednoducho ako "The Bronx", v oficiálnom názve štvrte nie je uvedený člen ("The").

Jeho názov je odvodený od rieky Bronx , a keďže rieky sa v angličtine zvyčajne používajú s členom (napr. "the Hudson"), tento člen ostal aj v názve štvrte. Rieka bola pomenovaná podľa švédskeho námorného kapitána Jonasa Broncka, ktorý v roku 1641 vlastnil majetok s rozlohou 2 km² medzi riekou Harlem a riekou Bronx (alebo Aquahung, ako sa vtedy nazývala v indiánčine).

  1. Koľko obyvateľov má Bronx?
  2. Ktorý je najsevernejší obvod mesta New York?
  3. Koľko obvodov má mesto New York?
  4. Odkiaľ dostal Bronx svoj názov?
  5. Po osobe akej národnosti je pomenovaná rieka Bronx?
  6. Aké povolanie mal Jonas Bronck?
  7. Ktorá je najvyššia budova v Bronxe?

3. obrázok Ukážka z databázy pre učenie otázok a odpovedí

Naším cieľom je, aby naši používatelia mohli ľahšie ako kedykoľvek predtým nájsť relevantné odpovede na svoje otázky.

Náš najvýznamnejší softvér pre zodpovedanie otázok, založený na maďarských lexikónoch, si môžete vyskúšať tu !


* Korpus je lingvistický termín, ktorý znamená súbor skutočne sa vyskytujúcich písomných alebo nahraných hovorených jazykových jednotiek.

Vyskúšajte tu

Stovky vedeckých časopisov, úradných časopisov, dennej tlače, týždenníkov a kníh v maďarskom jazyku s približne 4-5 miliónmi nových strán pridanými ročne.

Vyskúšam
Vyskúšajte tu

Stovky vedeckých časopisov, úradných časopisov, dennej tlače, týždenníkov a kníh v maďarskom jazyku s približne 4-5 miliónmi nových strán pridanými ročne.

Vyskúšam

Arcanum logo

Arcanum Adatbázis Kiadó, popredný poskytovateľ obsahu v Maďarsku, začal svoju činnosť 1. januára 1989. Spoločnosť sa zaoberá hromadnou digitalizáciou kultúrneho obsahu, jeho triedením do databáz a publikovaním.

O nás Kontakt Tlačové správy

Languages