يوفر فهم السجلات التاريخية الضخمة أدلة على الجوانب المختلفة، مثل القضايا الاجتماعية والسياسية وحتى حقائق العلوم الطبيعية. ومع ذلك، من الصعب بشكل عام الاستفادة الكاملة من السجلات التاريخية، نظرا لأن معظم المستندات غير مكتوبة باللغة الحديثة، فإن جزءا من المحتويات تضررت بمرور الوقت. نتيجة لذلك، تعد استعادة الأجزاء التالفة أو غير المستعرضة وكذلك ترجمة السجلات إلى اللغات الحديثة مهام مهمة. ردا على ذلك، نقدم نهج تعليمي متعدد المهام لاستعادة وترجمة المستندات التاريخية بناء على آلية اهتمام الذات، واستخدامها على وجه التحديد سجلتين تاريخي كوريا، منها السجلات التاريخية الأكثر ضمانا في العالم. تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير دقة مهمة الترجمة من خطوط الأساس دون تعلم متعدد المهام. بالإضافة إلى ذلك، نقدم تحليل استكشافي متعمق على نتائجنا المترجمة عبر النمذجة الموضوعية، والكشف عن العديد من الأحداث التاريخية الهامة.
Understanding voluminous historical records provides clues on the past in various aspects, such as social and political issues and even natural science facts. However, it is generally difficult to fully utilize the historical records, since most of the documents are not written in a modern language and part of the contents are damaged over time. As a result, restoring the damaged or unrecognizable parts as well as translating the records into modern languages are crucial tasks. In response, we present a multi-task learning approach to restore and translate historical documents based on a self-attention mechanism, specifically utilizing two Korean historical records, ones of the most voluminous historical records in the world. Experimental results show that our approach significantly improves the accuracy of the translation task than baselines without multi-task learning. In addition, we present an in-depth exploratory analysis on our translated results via topic modeling, uncovering several significant historical events.
References used
https://aclanthology.org/
One key ingredient of neural machine translation is the use of large datasets from different domains and resources (e.g. Europarl, TED talks). These datasets contain documents translated by professional translators using different but consistent tran
Pre-training (PT) and back-translation (BT) are two simple and powerful methods to utilize monolingual data for improving the model performance of neural machine translation (NMT). This paper takes the first step to investigate the complementarity be
This paper presents the first study on using large-scale pre-trained language models for automated generation of an event-level temporal graph for a document. Despite the huge success of neural pre-training methods in NLP tasks, its potential for tem
Successful methods for unsupervised neural machine translation (UNMT) employ cross-lingual pretraining via self-supervision, often in the form of a masked language modeling or a sequence generation task, which requires the model to align the lexical-
Machine translation usually relies on parallel corpora to provide parallel signals for training. The advent of unsupervised machine translation has brought machine translation away from this reliance, though performance still lags behind traditional