ترغب بنشر مسار تعليمي؟ اضغط هنا

العظة المرئية وتصحيح الأخطاء لترجمة الترجمة

Visual Cues and Error Correction for Translation Robustness

226   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج الترجمة الآلية العصبية حساسة للضوضاء في نصوص الإدخال، مثل كلمات أخطاء إملائية والإنشاءات غير الرسمية.تفشل تقنيات المتانة الحالية عموما عند مواجهة أنواع غير مرئية من الضوضاء وأدائها تتحلل من النصوص النظيفة.في هذه الورقة، نركز على ثلاثة أنواع من الضوضاء الواقعية التي يتم إنشاؤها عادة من قبل البشر وإدخال فكرة السياق البصري لتحسين متانة الترجمة للنصوص الصاخبة.بالإضافة إلى ذلك، نصف نظام تدريب تصحيح خطأ رواية يمكن استخدامه كمهمة مساعدة لزيادة تحسين متانة الترجمة.تظهر تجارب الترجمة الإنجليزية والفرنسية والإنجليزية - الألمانية أن كل من مكونات تصحيح الأخطاء المتعددة الوسائط والخروج تعمل على تحسين متانة النموذج للنصوص الصاخبة، بينما لا تزال تحتفظ بجودة الترجمة على النصوص النظيفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال مستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ دمت معظم الدراسات السابقة باستخدام BT نفس الهندسة المعمارية لكل من نماذج GEC و BT. ومع ذلك، فإن نماذج GEC لها اتجاهات تصحيح مختلفة اعتمادا على بنية نماذجها. وبالتالي، في هذه الدراسة، نقارن اتجاهات تصحيح نماذج GEC المدربة على البيانات الزائفة التي تم إنشاؤها بواسطة ثلاث نماذج BT مع بنية مختلفة، وهي المحول، CNN، و LSTM. تؤكد النتائج أن ميول التصحيح لكل نوع خطأ مختلفة لكل طراز BT. بالإضافة إلى ذلك، يمكننا التحقيق في ميول التصحيح عند استخدام مجموعة من البيانات الزائفة الناتجة عن نماذج BT مختلفة. نتيجة لذلك، نجد أن مجموعة من نماذج BT المختلفة تتحسن أو تحسن أداء كل نوع من نوع الخطأ مقارنة باستخدام نموذج BT واحد مع بذور مختلفة.
في السنوات الأخيرة، استخدم عدد من الدراسات نماذج خطية لتنبؤ بالشخصية بناء على النص.في هذه الورقة، نحن نحلل تجريبيا ومقارنة الإشارات المعجمية التي تم التقاطها في هذه النماذج.نحدد الإشارات المعجمية لكل بعدة من مخطط شخصية MBTI بعدة طرق مختلفة، مع الأخذ في الاعتبار مجموعات بيانات مختلفة ومجموعات ميزة وغوارزمية التعلم.نقوم بإجراء سلسلة من تحليلات الارتباط بين بيانات MBTI الناتجة واستكشاف اتصالهم بالإشارات الأخرى، مثل السمات الكبيرة الخمسة والعاطفة والشاحات والعمر والجنس.يظهر التحليل أنماط الارتباط المثيرة للاهتمام بين أبعاد الشخصية المختلفة والسمات الأخرى، وتقدم أيضا أدلة على تقلب البيانات.
على الرغم من أن تصحيح الخطأ النحوي (GEC) قد حقق أداء جيدا على النصوص التي كتبها المتعلمون من اللغة الإنجليزية كلغة ثانية، فإن الأداء على نطاقات كثافة الأخطاء المنخفضة حيث لا يزال من الممكن تحسين النصوص عن طريق مكبرات الصوت الإنجليزية من مستويات مختلف ة من الكفاءة.في هذه الورقة، نقترح نهجا للتعلم المتعاقيض لتشجيع نموذج GEC لتعيين احتمال أعلى من الجملة الصحيحة مع تقليل احتمالية جمل غير صحيحة أن النموذج يميل إلى توليدها، وذلك لتحسين دقة النموذج.تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير أداء نماذج GEC في مجالات كثافة خطأ منخفضة، عند تقييمه على مجموعة بيانات CWEB القياسية.
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم على التصنيف على هذه الأخطاء باستخدام العديد من ملصقات نوع الخطأ، لتقييم ترجمة الآلات العملي في عصر الترجمة الآلية العصبية.لقد بذلنا شرحا إضافيا على مجموعات بيانات المقاييس 2015-2017 مع ملصقات الطلاقة والكفاية لتمييز أنواع مختلفة من أخطاء الترجمة من نقاط العرض النحوية والدلسة.نقدم معايير التقييم البشرية لدينا لتطوير Corpus وتجارب التقييم التلقائي باستخدام Corpus.سيتم إتاحة كوربوس التقييم البشري علنا عند النشر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا