يوفر فهم السجلات التاريخية الضخمة أدلة على الجوانب المختلفة، مثل القضايا الاجتماعية والسياسية وحتى حقائق العلوم الطبيعية. ومع ذلك، من الصعب بشكل عام الاستفادة الكاملة من السجلات التاريخية، نظرا لأن معظم المستندات غير مكتوبة باللغة الحديثة، فإن جزءا من المحتويات تضررت بمرور الوقت. نتيجة لذلك، تعد استعادة الأجزاء التالفة أو غير المستعرضة وكذلك ترجمة السجلات إلى اللغات الحديثة مهام مهمة. ردا على ذلك، نقدم نهج تعليمي متعدد المهام لاستعادة وترجمة المستندات التاريخية بناء على آلية اهتمام الذات، واستخدامها على وجه التحديد سجلتين تاريخي كوريا، منها السجلات التاريخية الأكثر ضمانا في العالم. تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير دقة مهمة الترجمة من خطوط الأساس دون تعلم متعدد المهام. بالإضافة إلى ذلك، نقدم تحليل استكشافي متعمق على نتائجنا المترجمة عبر النمذجة الموضوعية، والكشف عن العديد من الأحداث التاريخية الهامة.
Understanding voluminous historical records provides clues on the past in various aspects, such as social and political issues and even natural science facts. However, it is generally difficult to fully utilize the historical records, since most of the documents are not written in a modern language and part of the contents are damaged over time. As a result, restoring the damaged or unrecognizable parts as well as translating the records into modern languages are crucial tasks. In response, we present a multi-task learning approach to restore and translate historical documents based on a self-attention mechanism, specifically utilizing two Korean historical records, ones of the most voluminous historical records in the world. Experimental results show that our approach significantly improves the accuracy of the translation task than baselines without multi-task learning. In addition, we present an in-depth exploratory analysis on our translated results via topic modeling, uncovering several significant historical events.
المراجع المستخدمة
https://aclanthology.org/
عنصر رئيسي واحد من الترجمة الآلية العصبية هو استخدام مجموعات البيانات الكبيرة من المجالات والموارد المختلفة (E.G. Europarl، TED محادثات).تحتوي مجموعات البيانات هذه على مستندات مترجمة من قبل المترجمين المحترفين باستخدام أنماط الترجمة المختلفة ولكن ثاب
ما قبل التدريب (PT) والترجمة الخلفي (BT) هي طريقتان بسيطان وقويهما لاستخدام البيانات الأولية لتحسين الأداء النموذجي للترجمة الآلية العصبية (NMT).تأخذ هذه الورقة الخطوة الأولى للتحقيق في التكامل بين PT و BT.نقدم اثنين من المهام التحقيق الخاصة ب PT و B
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا
طرق ناجحة للترجمة الآلية العصبية غير المنشأة (UNMT) توظف الاحتجاج عبر اللغات عبر الإشراف الذاتي، في كثير من الأحيان في شكل نمذجة لغة ملمقة أو مهمة توليد التسلسل، والتي تتطلب نموذج محاذاة التمثيلات المعجمية والفوضيةاللغتين.بينما يعمل الاحتجاج عبر اللغ
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة