ترغب بنشر مسار تعليمي؟ اضغط هنا

مقارنة بين نهج NMT المختلفة إلى الترجمة ذات الموارد الهولندية-الألبانية المنخفضة

A Comparison of Different NMT Approaches to Low-Resource Dutch-Albanian Machine Translation

252   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن فهم لغات الموارد المنخفضة كنغات أكثر شحيحة، وأقل دراستها، أقل امتيازا، أقل شيوعا، والتي تكون أقل شيوعا والتي توجد فيها موارد أقل (Singh، 2008؛ Cieri et al.، 2016؛ Magueresse et al.، 2020) وبعد يركز البحث والتكنولوجيا لمعالجة اللغة الطبيعية (NLP) بشكل أساسي على تلك اللغات التي توجد بها مجموعات بيانات كبيرة متاحة. لتوضيح الاختلافات في توافر البيانات: هناك 6 ملايين مقالة في ويكيبيديا المتاحة للغة الإنجليزية، 2 مليون للهولندية، ومجرد 82 ألف للألبانية. تصبح قضية البيانات الشحيحة واضحة بشكل متزايد عندما تكون مجموعات البيانات المتوازية الكبيرة مطلوبة للتطبيقات مثل الترجمة الآلية العصبية (NMT). في هذا العمل، يمكننا التحقيق في أي مدى من الممكن الترجمة بين الألبانية (SQ) والهولندية (NL) مقارنة نموذج واحد إلى واحد (SQ↔AL)، نهج يستند إلى موارد منخفضة الموارد (الإنجليزية (EN) Pivot) والترجمة الصفرية بالرصاص (ZST) (جونسون وآخرون، 2016؛ نظام ماتوني وآخرون.، 2017). من تجاربنا، فإنه ينتج عن تفوق نموذج EN-PIVOT على حد سواء من طراز Zst المباشر. منذ غالبا ما تكون كميات صغيرة من البيانات الموازية متاحة لغات الموارد المنخفضة أو الإعدادات المنخفضة، أجريت التجارب باستخدام مجموعات صغيرة من بيانات NL↔SQ الموازية. بدا أن Zst هو أسوأ نماذج أداء. حتى عندما تمت إضافة البيانات الموازية المتاحة (nl↔sq)، أي في إعداد قليل من اللقطة (FST)، ظلت أسوأ نظام أداء وفقا ل Automatic (Bleu and Ter) والتقييم البشري.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبح أكبر انفجار أفضل في عدد المعلمات في الشبكات العصبية العميقة جعلته صعبة بشكل متزايد لجعل الشبكات الحديثة التي يمكن الوصول إليها في البيئات المقيدة لحسابها. أخذت تقنيات ضغط الأهمية المتجددة كوسيلة لسد الفجوة. ومع ذلك، فإن تقييم المفاضلات المتكبدة من خلال تقنيات الضغط الشعبية قد تركزت على مجموعات بيانات عالية الموارد. في هذا العمل، نعتبر بدلا من ذلك تأثير الضغط في نظام محدود من البيانات. نقدم مصطلح رابط مزدوج الموارد المنخفضة للإشارة إلى حدوث قيود البيانات ويحسب قيود الموارد. هذا هو إعداد شائع لبرنامج NLP لغات الموارد المنخفضة، ومع ذلك، تتم دراسة المفاضلات في الأداء بشكل سيء. يقدم عملنا رؤى مفاجئة في العلاقة بين القدرات والتعميم في الأنظمة المحدودة البيانات لمهمة الترجمة الآلية. تجاربنا على حجم تشذيب الترجمات من الإنجليزية إلى يوروبا، هاوسا، إغيبو وألماني تظهر أنه في أنظمة الموارد المنخفضة، تحافظ Sparsity على أداء على جمل متكررة ولكن لها تأثير متباين على النادر. ومع ذلك، فإنه يعمل على تحسين نوبات التوزيع، وخاصة بالنسبة لمجموعات البيانات المميزة للغاية عن توزيع التدريب. تشير نتائجنا إلى أن Sparsity يمكن أن تلعب دورا مفيدا في الحد من حفظ سمات التردد المنخفضة، وبالتالي يقدم حلا واعدا للربط المزدوج الموارد المنخفضة.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن حاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.
تراجع الجملة هي تقنية تكييف مجال بسيطة وقوية.نقوم بإجراء تصنيف النطاق لحساب الحوسبة أوزان مع 1) نموذج اللغة Cross Entropy الفرق 2) شبكة عصبية تشفيرية 3) شبكة توتور العصبية العودية.قارنا هذه الأساليب فيما يتعلق بدقة تصنيف المجال ودراسة توزيع الاحتمالا ت الخلفية.ثم نقوم بتنفيذ تجارب NMT في السيناريو حيث ليس لدينا فورانيا متوازية في المجال وعلى الفورورا المحدودة في المجال.هنا ونحن نستخدم مصنف المجال للاعتقال جمل كوربوس التدريب خارج المجال.هذا يؤدي إلى تحسينات تصل إلى 2.1 بلو للترجمة الألمانية إلى الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا