ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة UGC صاخبة على مستوى الطابع: إعادة النظر في قدرات المفردات المفتوحة وأغاني النماذج المستندة إلى Char

Noisy UGC Translation at the Character Level: Revisiting Open-Vocabulary Capabilities and Robustness of Char-Based Models

335   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يستكشف هذا العمل قدرات الترجمة الآلية العصبية القائمة على الأحرف لترجمة المحتوى الناتج عن المستخدم الصاخب (UGC) مع التركيز القوي على استكشاف حدود هذه الأساليب للتعامل مع ظواهر UGC الإنتاجية، والتي بحكم تعريفها تقريبا، لا يمكن رؤيتها في وقت التدريبوبعدضمن سيناريو صاروخي صاروخي بالرصاص، نقوم أولا بدراسة التأثير الضار على أداء الترجمة من مختلف ظواهر المحتوى التي تم إنشاؤها من قبل المستخدم على مجموعة بيانات صغيرة مشروحة، وظهرت بعد ذلك أن هذه النماذج غير قادرة بالفعل على التعامل مع الحروف غير المعروفة، مما يؤدي إلى ترجمة كارثيةالفشل بمجرد مواجهة هذه الشخصيات.نحن نؤكد مزيدا من السلوك بتجربة مهمة بسيطة ولكنها ثاقبة وتسليط الضوء على أهمية تقليل حجم المفردات Hyper-Parameter لزيادة متانة النماذج القائمة على الأحرف للترجمة الآلية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الرجوع إلى النصوص التي تنقل نفس المعنى بأشكال تعبير مختلفة. أظهرت الأساليب المستندة إلى Pivot، المعروف أيضا باسم ترجمة الرحلة المستديرة، نتائج واعدة في توليد صياغة عالية الجودة. ومع ذلك، فإن الأساليب القائمة على المحور القائمة تعتمد جميعها على اللغة مثل المحور، حيث تكون النصوص الثنائية الثنائية الموازية على نطاق واسع، مطلوبة موازية عالية الجودة. في هذه الورقة، نستكشف جدوى استخدام التمثيلات الدلالية والنزاهة كحوري من أجل إعادة صياغة نصبها. بشكل ملموس، نتحول جملة إلى مجموعة متنوعة من التمثيلات الدلالية أو النحوية المختلفة (بما في ذلك AMR، UD، وتمثيل الدلالي الكامن)، ثم فك تشفير الجملة من التمثيل الدلالي. نسمح أيضا نهجا يستند إلى إعادة الاحتجاط بضغط عملية خط الأنابيب في إطار نهاية إلى نهاية. نقوم بإجراء تجارب تقارن مناهج مختلفة مع أنواع مختلفة من المحاور. تظهر النتائج التجريبية أن اتخاذ AMR كما يمكن للمحافظة الحصول على صياغة مع جودة أفضل من تناول اللغة كمحور. يمكن للإطار الطرفي النهائي أن يقلل من التحول الدلالي عند استخدام اللغة كحوري. إضافة إلى جانب ذلك، يمكن أن تولد العديد من الطرق القائمة على المحور غير المركبات أن تولد صياغة مع جودة مماثلة كنموذج التسلسل الإشراف على التسلسل، والذي يشير إلى أن البيانات الموازية للصيانة قد لا تكون ضرورية لإعادة صياغة عناصر التوليد.
يأخذ هذا العمل إلقاء نظرة حاسمة على تقييم الترجمة التلقائية التي أنشأها المستخدم، والخصائص المعروفة منها رفع العديد من التحديات الخاصة ب MT.تظهر التحليلات لدينا أن قياس الأداء المتوسط للحالة باستخدام متري قياسي على مجموعة اختبار UGC يسقط أقل بكثير من إعطاء صورة موثوقة لجودة الترجمة UGC.هذا هو السبب في أننا نقدم بيانات جديدة تم تعيينها لتقييم ترجمة UGC التي تم فيها تفاح خصوصي خصوصية UGC يدويا باستخدام مصمامة غرامة الحبيبات.باستخدام مجموعة البيانات هذه، نقوم بإجراء العديد من التجارب لقياس تأثير أنواع مختلفة من خصوصيات UGC بجودة الترجمة، أكثر دقة من الممكن في السابق.
وجدت خوارزميات التدرج السياسي اعتماد واسع في NLP، لكنها أصبحت مؤخرا عرضة للنقد، مما يشك في ملاءمتها ل NMT.تشوشين وآخرون.(2020) حدد نقاط ضعف متعددة والشك في تحديد نجاحهم من خلال شكل توزيعات الإخراج بدلا من المكافأة.في هذه الورقة، نلتأكيد هذه المطالبات ودراسةها تحت مجموعة أوسع من التكوينات.تكشف تجاربنا على التكيف في المجال والمجال عبر المجال أهمية الاستكشاف والمكافآت، وتوفير الأدلة المضادة التجريبية لهذه المطالبات.
عند بناء أنظمة الترجمة الآلات، يحتاج المرء في كثير من الأحيان إلى الاستفادة القصوى من مجموعات غير متجانسة من البيانات الموازية في التدريب، والتعامل مع المدخلات بقوة من المجالات غير المتوقعة في الاختبار.جذبت هذا السيناريو متعدد المجالات الكثير من العم ل الحديث الذي يقع تحت المظلة العامة لتعلم النقل.في هذه الدراسة، نشجع الترجمة متعددة المجالات، بهدف صياغة الدوافع لتطوير هذه الأنظمة والتوقعات المرتبطة فيما يتعلق بالأداء.تبين تجاربنا مع عينة كبيرة من أنظمة المجال متعددة أن معظم هذه التوقعات تلتقي بالكاد وتشير إلى أن هناك حاجة إلى مزيد من العمل لتحليل السلوك الحالي لأنظمة المجالات المتعددة وجعلها تمسك بوعودها بالكامل.
كان التقدم المحرز الأخير في نمذجة اللغة مدفوعة ليس فقط بالتقدم في البنيات العصبية، ولكن أيضا من خلال تحسين الأجهزة والتحسين.في هذه الورقة، نؤيد نموذج اللغة الاحتمالية العصبية (NPLM) من بنغيو وآخرون.(2003)، والتي تسلسل ببساطة تضمين كلمة داخل نافذة ثاب تة ويمرر النتيجة من خلال شبكة تغذية إلى الأمام للتنبؤ بالكلمة التالية.عند القياس حتى الأجهزة الحديثة، يؤدي هذا النموذج (على الرغم من قيودها العديدة) أفضل بكثير مما كان متوقعا عن معايير نموذج اللغة على مستوى Word.يكشف تحليلنا أن NPLM يحقق حيرة أقل من محول الأساس مع سياقات مدخلات قصيرة ولكن تكافح للتعامل مع تبعيات طويلة الأجل.مستوحاة من هذه النتيجة، نقوم بتعديل المحول عن طريق استبدال طبقة انتباهي أول مع طبقة التسلسل المحلية في NPLM، مما يؤدي إلى انخفاض حيرة صغيرة ولكنها ثابتة عبر مجموعات بيانات نمذجة لغة مستوى الكلمات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا