ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن فهم لغات الموارد المنخفضة كنغات أكثر شحيحة، وأقل دراستها، أقل امتيازا، أقل شيوعا، والتي تكون أقل شيوعا والتي توجد فيها موارد أقل (Singh، 2008؛ Cieri et al.، 2016؛ Magueresse et al.، 2020) وبعد يركز البحث والتكنولوجيا لمعالجة اللغة الطبيعية (NLP) بشكل أساسي على تلك اللغات التي توجد بها مجموعات بيانات كبيرة متاحة. لتوضيح الاختلافات في توافر البيانات: هناك 6 ملايين مقالة في ويكيبيديا المتاحة للغة الإنجليزية، 2 مليون للهولندية، ومجرد 82 ألف للألبانية. تصبح قضية البيانات الشحيحة واضحة بشكل متزايد عندما تكون مجموعات البيانات المتوازية الكبيرة مطلوبة للتطبيقات مثل الترجمة الآلية العصبية (NMT). في هذا العمل، يمكننا التحقيق في أي مدى من الممكن الترجمة بين الألبانية (SQ) والهولندية (NL) مقارنة نموذج واحد إلى واحد (SQ↔AL)، نهج يستند إلى موارد منخفضة الموارد (الإنجليزية (EN) Pivot) والترجمة الصفرية بالرصاص (ZST) (جونسون وآخرون، 2016؛ نظام ماتوني وآخرون.، 2017). من تجاربنا، فإنه ينتج عن تفوق نموذج EN-PIVOT على حد سواء من طراز Zst المباشر. منذ غالبا ما تكون كميات صغيرة من البيانات الموازية متاحة لغات الموارد المنخفضة أو الإعدادات المنخفضة، أجريت التجارب باستخدام مجموعات صغيرة من بيانات NL↔SQ الموازية. بدا أن Zst هو أسوأ نماذج أداء. حتى عندما تمت إضافة البيانات الموازية المتاحة (nl↔sq)، أي في إعداد قليل من اللقطة (FST)، ظلت أسوأ نظام أداء وفقا ل Automatic (Bleu and Ter) والتقييم البشري.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا