Semi-automatic ontological alignment of digitized books parallel corpora


In this paper, we present a method for general ontology management integration with an alignment of digitized books paraphrase corpus, which have been compiled from bilingual parallel corpus. We show that our method can improve ontology development and consistency checking when we add semantic parsing and machine translation to the process of general knowledge management. Additionally, we argue that the focus on one’s favorite books gives a factor of gamification for knowledge management process. A new formalism of semantic parsing ontological alignments is introduced and its use for ontology development and consistency checking is discussed. It is shown that existing general ontologies requires much more axioms than it is currently available in order to explain unaligned content of books. Proactive learning approach is suggested as part of the solution to improve development of ontology predicates and axioms. WordNet, FrameNet and SUMO ontologies are used as a starting knowledge base of paraphrase corpus semantic alignment method.

Article in English.

Lygiagretaus skaitmeninių knygų rinkinio dalinis automatinis sugretinimas, naudojant ontologijas


Straipsnyje pateiktas bendrosios ontologijos valdymo metodas naudojant parafrazių rinkinius, gautus iš grožinės literatūros knygų. Straipsnyje pateiktas metodas gali pagerinti tolesnį ontologijos plėtimą ir loginio nuoseklumo patikrinimą. Šio metodo funkcionalumas grindžiamas dviem esminėmis technologijomis: semantine teksto analize ir automatiniu kompiuterio vertimu. Svarbus pateikto metodo aspektas – žaidimo elementų naudojimas valdant bendrąsias ontologijas. Šis aspektas užtikrinamas tuo, kad ontologijų valdymo procesas glaudžiai susietas su grožinės literatūros kūriniais. Straipsnyje pateiktas naujas ontologijų suderinimo formalizmas. Tyrimų rezultatai parodė, kad esamos bendrosios ontologijos turi būti papildytos kur kas didesniu kiekiu aksiomų, nei yra šiuo metu, kad būtų galima paaiškinti semantinį nesugretintų parafrazių ekvivalentiškumą. Papildomai straipsnyje pasiūlytas proaktyvus mokymosi metodas, leidžiantis pagerinti ontologijų kūrimo procesą. „WordNet“, „FrameNet“ ir SUMO ontologijos naudojamos kaip pradinės žinių bazės, siekiant pagerinti semantinio sugretinimo metodą.

Reikšminiai žodžiai: tekstų sugretinimas, ontologijų kūrimas ir naudojimas, automatinis mašininis vertimas, natūralios kalbos apdorojimo algoritmai.

Keyword : ontological alignment of corpora, alignment of digitized books, machine translation, natural language processing

How to Cite
Laukaitis, A., & Laukaitytė, N. (2021). Semi-automatic ontological alignment of digitized books parallel corpora. Mokslas – Lietuvos Ateitis / Science – Future of Lithuania, 13.
Published in Issue
Jul 2, 2021
Abstract Views
PDF Downloads
Creative Commons License

This work is licensed under a Creative Commons Attribution 4.0 International License.


