ترغب بنشر مسار تعليمي؟ اضغط هنا

نقل بيانات التدريب الترجمة المختلطة

Training Data Augmentation for Code-Mixed Translation

213   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الترجمة الآلية للمدخلات المزدوجة التي تم إنشاؤها بواسطة المستخدمين إلى اللغة الإنجليزية ذات أهمية حاسمة في التطبيقات مثل البحث على شبكة الإنترنت والإعلانات المستهدفة.نحن نتطلع إلى ندرة البيانات التدريبية الموازية لتدريب هذه النماذج عن طريق تصميم استراتيجية لتحويل مصادر البيانات المتوازية الموجزة غير المزججة الحالية إلى البيانات الموازية المختلطة.نقدم إجراء يستند إلى M-Bert إلى مكونه الأساسي الذي يمكن أن يكون نموذج وضع العلامات ثلاثية التسلسلات، والتي يمكن تدريبها على Corpus محدود مختلط رمزيا وحدها.نعرض زيادة بنسبة 5.8 نقطة في بلو على الجمل المختلطة شفرة الشفرة من خلال تدريب نموذج الترجمة باستخدام استراتيجية تكبير البيانات الخاصة بنا حول مهمة الترجمة من اللغة الهندية-الإنجليزية المختلطة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

محول غير تلقائي هو نموذج توليد نص واعد.ومع ذلك، لا تزال النماذج الحالية غير التلقائية التي لا تزال تقف وراء نظرائها التلقائي في جودة الترجمة.نحن نعزو فجوة الدقة هذه إلى عدم وجود نمذجة التبعية بين مدخلات فك التشفير.في هذه الورقة، نقترح CNAT، والتي تتع لم الرموز الفئوية الضمنية بمثابة متغيرات كامنة في فك التشفير غير التشغيلي التشغيلي.إن التفاعل بين هذه الرموز الفئوية سيلم على التبعيات المفقودة ويحسن القدرة النموذجية.تظهر نتائج التجربة أن نموذجنا يحقق أداء قابلا أو أفضل في مهام الترجمة الآلية من العديد من خطوط الأساس القوية.
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا ية مثل أنظمة الإستونية، وعادة ما تؤدي أنظمة بعثة الأمم المتحدة في غرة الأبراج بشكل سيئ عندما لا يكون هناك كائنات تدريب كافية لغات واحدة.في هذه الورقة، نقوم أولا بتحديد وتحليل سيناريو البيانات التدريبية غير المتوازنة لإدارة بروتوكولية الكونغراف.استنادا إلى هذا السيناريو، نقترح آليات التدريب الذاتي لجهاز مكافآت لتدريب نظام INMT قوي وتحسين أدائها في هذه الحالة.تظهر النتائج التجريبية على العديد من أزواج اللغة أن الأساليب المقترحة تتفوق بشكل كبير على نظم التعطيب التقليدية.
أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص ال مختلطة من التعليمات البرمجية إلى لغة قياسية. تظل معظم المحتوى المكتوب من المستخدمين من المستخدمين في وسائل الإعلام الاجتماعية غير المعتمدة بسبب عدم توفر الموارد اللغوية مثل Corpus الموازي. تقترح هذه الورقة نموذجا للترجمة الآلية العصبية (NMT) لترجمة النص المختلط بين السنهالية - الإنجليزية إلى لغة سنهالا. نظرا للموارد المحدودة المتاحة لنص Sinhala-English النص المختلط (SEMM)، يتم إنشاء Corpus الموازي مع جمل SEMM وجمل Sinhala. تحتوي مواقع وسائل التواصل الاجتماعي Srilankan على نصوص SEMM بشكل متكرر أكثر من اللغات القياسية. النموذج المقترح للترجمة النصية المختلطة في التعليمات البرمجية في هذه الدراسة هو مزيج من إطار فك تشفير التشفير مع وحدات LSTM والمعلمين تجبر الخوارزمية. يتم تقييم الجمل المترجمة من النموذج باستخدام متري بلو (تقييم ثنائي اللغة). حقق نموذجنا درجة بلو رائعة للترجمة.
تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة ع بوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.
تصف هذه الورقة مشاركة فريق UOB-NLP في SubTask SubTask المشترك 7A.كانت المهمة تهدف إلى اكتشاف ذكر المهن في نص وسائل التواصل الاجتماعي.جرب فريقنا بطريقتين لتحسين أداء النماذج المدربة مسبقا: على وجه التحديد، جربنا مع زيادة البيانات من خلال الترجمة ودمج المدخلات اللغوية المتعددة لتلبية هدف المهمة.في حين أن أفضل نموذج أداء في بيانات الاختبار تتألف من Mbert Tuned على البيانات المعززة باستخدام الترجمة الخلفية، فإن التحسن بسيطا ربما لأن النماذج المدربة مسبقا متعددة اللغات مثل Mbert لديها بالفعل الوصول إلى نوع المعلومات المقدمة من خلال الخلف- البيانات والبيانات ثنائية اللغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا