ترغب بنشر مسار تعليمي؟ اضغط هنا

التدريب الذاتي للترجمة الآلية العصبية غير المنشأة في سيناريوهات بيانات التدريب غير المتوازنة

Self-Training for Unsupervised Neural Machine Translation in Unbalanced Training Data Scenarios

294   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغاية مثل أنظمة الإستونية، وعادة ما تؤدي أنظمة بعثة الأمم المتحدة في غرة الأبراج بشكل سيئ عندما لا يكون هناك كائنات تدريب كافية لغات واحدة.في هذه الورقة، نقوم أولا بتحديد وتحليل سيناريو البيانات التدريبية غير المتوازنة لإدارة بروتوكولية الكونغراف.استنادا إلى هذا السيناريو، نقترح آليات التدريب الذاتي لجهاز مكافآت لتدريب نظام INMT قوي وتحسين أدائها في هذه الحالة.تظهر النتائج التجريبية على العديد من أزواج اللغة أن الأساليب المقترحة تتفوق بشكل كبير على نظم التعطيب التقليدية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج الترجمة الآلية العصبية (NMT) هي مدفوعة بالبيانات وتتطلب كوربوس تدريب واسع النطاق. في التطبيقات العملية، عادة ما يتم تدريب نماذج NMT على مجال مجال عام ثم يتم ضبطه بشكل جيد من خلال التدريب المستمر على Corpus في المجال. ومع ذلك، فإن هذا يحمل خطر ا لنسيان الكارثي الذي ينخفض ​​فيه الأداء الموجود على المجال العام بشكل كبير. في هذا العمل، نقترح إطارا تعليميا مستمرا جديدا لنماذج NMT. نحن نعتبر سيناريو حيث يتألف التدريب من مراحل متعددة واقتراح تقنية تقطير معارف ديناميكية لتخفيف مشكلة النسيان الكارثي بشكل منهجي. نجد أيضا أن التحيز موجود في الإسقاط الخطي الإخراج عند ضبط جيد على Corpus في المجال، واقترح وحدة تصحيح التحيز للقضاء على التحيز. نقوم بإجراء تجارب في ثلاثة إعدادات تمثيلية لتطبيق NMT. تظهر النتائج التجريبية أن الطريقة المقترحة تحقق أداء فائقا مقارنة بالنماذج الأساسية في جميع الإعدادات.
تعتمد معظم نماذج الترجمة الآلية العصبية الحالية ترتيب فك التشفير الرخيصي إما من اليسار إلى اليمين أو اليمين إلى اليسار.في هذا العمل، نقترح طريقة رواية تنفصل قيود أوامر فك التشفير هذه، تسمى فك تشفير الذكية.وبشكل أكثر تحديدا، تتوقع طريقةنا أولا كلمة مت وسط.يبدأ فك شفرة الكلمات الموجودة على الجانب الأيمن من الكلمة المتوسطة ثم يولد كلمات على اليسار.نحن نقيم طريقة فك التشفير الذكية المقترحة على ثلاث مجموعات البيانات.تظهر النتائج التجريبية أن الطريقة المقترحة يمكن أن تتفوق بشكل كبير على النماذج الأساسية القوية.
ما قبل التدريب (PT) والترجمة الخلفي (BT) هي طريقتان بسيطان وقويهما لاستخدام البيانات الأولية لتحسين الأداء النموذجي للترجمة الآلية العصبية (NMT).تأخذ هذه الورقة الخطوة الأولى للتحقيق في التكامل بين PT و BT.نقدم اثنين من المهام التحقيق الخاصة ب PT و B T على التوالي وتجد أن PT يساهم بشكل أساسي في وحدة التشفير أثناء قيام BT بتجلب المزيد من الفوائد إلى وحدة فك الترميز.تظهر النتائج التجريبية أن PT و BT مكملة بشكل جيد مع بعضها البعض، وإنشاء عروض أحدث على المعايير WMT16 الإنجليزية والرومانية والروسية.من خلال تحليلات واسعة النطاق على عصالة الجملة وتيرة الكلمة، فإننا نوضح أيضا أن الجمع بين الموسومة BT مع PT هو أكثر فائدة تكاملها، مما يؤدي إلى جودة ترجمة أفضل.شفرة المصدر متاحة بحرية في HTTPS://github.com/sunbowliu/ptvsbt.
أصبحت الترجمة المرجودة (BT) واحدة من مكونات الأمر الواقع في الترجمة الآلية العصبية غير المنشأة (UNMT)، ويجعل صراحة لديها القدرة على الترجمة. ومع ذلك، يتم التعامل مع جميع النصوص الثنائية الزائفة التي تم إنشاؤها بواسطة BT بنفس القدر كبيانات نظيفة أثناء التحسين دون النظر في تنوع الجودة، مما يؤدي إلى التقارب البطيء وأداء الترجمة المحدود. لمعالجة هذه المشكلة، نقترح طريقة تعلم المناهج الدراسية للاستفادة تدريجيا من النصوص الثنائية الزائفة القائمة على جودتها من التعبيات المتعددة. على وجه التحديد، نقوم أولا بتطبيق تضمين كلمة crosslingual لحساب صعوبة الترجمة المحتملة (الجودة) للجمل الأولية. بعد ذلك، يتم تغذية الجمل في برنامج التعريف الخاص ب UNMT من السهل إلى الدفعة الصلبة عن طريق الدفعة. علاوة على ذلك، بالنظر إلى جودة الجمل / الرموز في دفعة معينة هي متنوعة أيضا، فإننا نتخذ النموذج نفسه لحساب درجات الجودة المحبوبة بشكل جيد، والتي يتم تقديمها كعامل تعليمي لموازنة مساهمات أجزاء مختلفة عند فقد الحوسبة وتشجيعها نموذج UNMT للتركيز على البيانات الزائفة بجودة أعلى. النتائج التجريبية على WMT 14 EN-FR، WMT 14 EN-DE، WMT 16 EN-RO، و LDC EN-ZH توضح أن الطريقة المقترحة تحقق تحسينات ثابتة مع سرعة التقارب الأسرع.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا