تصف هذه الورقة منهجية لنقل المعرفة النحوية بين لغات الموارد عالية الموارد إلى لغات الموارد المنخفضة للغاية. تتألف المنهجية في الاستفادة من نموذج الانتباه الذاتي متعدد اللغات المحدد في مجموعات البيانات الكبيرة لتطوير نموذج متعدد اللغات متعدد اللغات يمكن أن يتوقع التشريحات التبعية الشاملة لثلاثة لغات موارد منخفضة الأفريقية. تشمل التعليقات التوضيحية UD جزءا عالميا من الكلام والميزات المورفولوجية وميمرات وأشجار الاعتماد. في تجاربنا، استخدمنا تضييق كلمة متعددة اللغات وما مجموعه 11 تبعا عالميا Treebanks تم استخلاصها من ثلاثة لغات موارد عالية (الإنجليزية والفرنسية والنرويجية) وثلاثة لغات موارد منخفضة (Bambara و Wolof و Yoruba). قمنا بتطوير نماذج مختلفة لاختبار مجموعات لغة محددة تنطوي على لغات مراقبة معاصرة أو لغات ذات صلة وراثيا. تبين نتائج التجارب أن النماذج متعددة اللغات التي تنطوي على لغات عالية الموارد ولغات منخفضة الموارد مع الاتصال المعاصر بين بعضها البعض يمكن أن توفر نتائج أفضل من المجموعات التي تشمل فقط اللغات التي لا علاقة لها. فيما يتعلق بالعلاقات الوراثية البعيدة، لم نتمكن من استخلاص أي استنتاج بشأن تأثير مجموعات اللغة التي تنطوي على لغات الموارد المنخفضة المختارة، وهي Wolof و Yoruba.
This paper describes a methodology for syntactic knowledge transfer between high-resource languages to extremely low-resource languages. The methodology consists in leveraging multilingual BERT self-attention model pretrained on large datasets to develop a multilingual multi-task model that can predict Universal Dependencies annotations for three African low-resource languages. The UD annotations include universal part-of-speech, morphological features, lemmas, and dependency trees. In our experiments, we used multilingual word embeddings and a total of 11 Universal Dependencies treebanks drawn from three high-resource languages (English, French, Norwegian) and three low-resource languages (Bambara, Wolof and Yoruba). We developed various models to test specific language combinations involving contemporary contact languages or genetically related languages. The results of the experiments show that multilingual models that involve high-resource languages and low-resource languages with contemporary contact between each other can provide better results than combinations that only include unrelated languages. As far genetic relationships are concerned, we could not draw any conclusion regarding the impact of language combinations involving the selected low-resource languages, namely Wolof and Yoruba.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور،
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما
لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك