ترغب بنشر مسار تعليمي؟ اضغط هنا

انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT) . حول الملاحظة التي تتميز بها UGC لغة مشحونة بالثريات والمعنوية للغاية ونقترح نهج من جانب فك الترميز الذي يشتمل على الثقة التلقائية التي يتم تسجيلها في عملية اختيار مرشح MT. نحن ندرب مصنف المعنويات أحادية الأنتجة باللغة الإنجليزية والإسبانية بالإضافة إلى نموذج معنويات متعددة اللغات وثقل Berting Berting Bert و XLM-Roberta. باستخدام N-Best المرشحين الناتج عن نموذج خط الأساس MT مع البحث الشعاع ونختار المرشح الذي يقلل من الفرق المطلق بين درجة المعنويات من جملة المصدر والترجمة وأداء تقييمين بشري لتقييم الترجمات المنتجة. على عكس العمل السابق ونحن نقوم بتحديد هذا الترجمة المتباينة على الحد الأدنى من خلال النظر في درجات المعنويات من جملة المصدر والترجمة على الفاصل الزمني المستمر وبدون استخدام E.G. التصنيف الثنائي والسماح باختيار أكثر غرامة من مرشحي الترجمة. تظهر نتائج التقييمات البشرية أنه وبالمقارنة مع نموذج خط الأساس MT مفتوح المصدر على رأسه مبني أن خط أنابيب القائم على المعنويات مبنية وينتج خط أنابيبنا ترجمة أكثر دقة للنصوص المصدر الثقيلة العامية والمعنويات.
في وضع الترجمة في الوقت الحقيقي للترجمة في الوقت الفعلي، تبدأ نماذج الترجمة الآلية العصبية (NMT) بتوليد الرموز الرموز اللغوية المستهدفة من جمل لغة مصدر غير كاملة وجعلها أكثر صعوبة في ترجمة وجودة الترجمة السيئة. أظهرت الأبحاث السابقة أن NMT على مستوى الوثيقة وتشمل الجملة والترميز السياق والكشف عن السياق من الجمل المجاورة ويساعد على تحسين جودة الترجمة. في إعدادات الترجمة المتزامنة، يجب أن يكون السياق من الجمل السابقة أكثر أهمية. تحقيقا لهذه الغاية وفي هذه الورقة، نقترح NMT على مستوى الوثيقة المتزامنة للانتظار حيث نحتفظ بمثابة تشفير السياق كما هو الحال واستبدال تشفير جملة المصدر ومكتشف اللغة المستهدف مع ما يعادله. نقوم بتجربة إعدادات الموارد المنخفضة والعالية باستخدام ALT و OPENSUBTITLES2018 Corpora وأين لاحظنا تحسينات طفيفة في جودة الترجمة. بعد ذلك إجراء تحليل للترجمات التي تم الحصول عليها باستخدام نماذجنا من خلال التركيز على الجمل التي يجب أن تستفيد من السياق حيث اكتشفنا أن النموذج يفعل وفي الواقع والاستفادة من السياق ولكنه غير قادر على الاستفادة من ذلك بشكل فعال وخاصة في انخفاض إعداد الموارد. هذا يدل على أن هناك حاجة لمزيد من الابتكار في طريقة تحديد السياق المفيد والاستفادة منها.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا