ترغب بنشر مسار تعليمي؟ اضغط هنا

فهم تأثير خصوصيات UGC على جودة الترجمة

Understanding the Impact of UGC Specificities on Translation Quality

241   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يأخذ هذا العمل إلقاء نظرة حاسمة على تقييم الترجمة التلقائية التي أنشأها المستخدم، والخصائص المعروفة منها رفع العديد من التحديات الخاصة ب MT.تظهر التحليلات لدينا أن قياس الأداء المتوسط للحالة باستخدام متري قياسي على مجموعة اختبار UGC يسقط أقل بكثير من إعطاء صورة موثوقة لجودة الترجمة UGC.هذا هو السبب في أننا نقدم بيانات جديدة تم تعيينها لتقييم ترجمة UGC التي تم فيها تفاح خصوصي خصوصية UGC يدويا باستخدام مصمامة غرامة الحبيبات.باستخدام مجموعة البيانات هذه، نقوم بإجراء العديد من التجارب لقياس تأثير أنواع مختلفة من خصوصيات UGC بجودة الترجمة، أكثر دقة من الممكن في السابق.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يستكشف هذا العمل قدرات الترجمة الآلية العصبية القائمة على الأحرف لترجمة المحتوى الناتج عن المستخدم الصاخب (UGC) مع التركيز القوي على استكشاف حدود هذه الأساليب للتعامل مع ظواهر UGC الإنتاجية، والتي بحكم تعريفها تقريبا، لا يمكن رؤيتها في وقت التدريبوبع دضمن سيناريو صاروخي صاروخي بالرصاص، نقوم أولا بدراسة التأثير الضار على أداء الترجمة من مختلف ظواهر المحتوى التي تم إنشاؤها من قبل المستخدم على مجموعة بيانات صغيرة مشروحة، وظهرت بعد ذلك أن هذه النماذج غير قادرة بالفعل على التعامل مع الحروف غير المعروفة، مما يؤدي إلى ترجمة كارثيةالفشل بمجرد مواجهة هذه الشخصيات.نحن نؤكد مزيدا من السلوك بتجربة مهمة بسيطة ولكنها ثاقبة وتسليط الضوء على أهمية تقليل حجم المفردات Hyper-Parameter لزيادة متانة النماذج القائمة على الأحرف للترجمة الآلية.
استخراج الحقائق والتحقق (الحمى) هي مهمة تم تقديمها مؤخرا تتألف من استرجاع المستندات الفرعية التالية (I)، (II) استعادة الجملة، و (3) التحقق من المطالبة.في هذا العمل، نركز على الترجمة الفرعية لاسترجاع الجملة.على وجه التحديد، نقترح نموذجا يعتمد على المح ولات على الأدلة التي تتفوق على جميع الطرز الأخرى من حيث درجة الحمى باستخدام مجموعة فرعية من مثيلات التدريب.بالإضافة إلى ذلك، نقوم بإجراء دراسة تجريبية كبيرة للحصول على فهم أفضل للمشكلة، بينما تلخص نتائجنا من خلال تقديم تحديات البحث في المستقبل.
يقدم هذا العمل مجموعة متنوعة بسيطة لتقييم جودة الترجمة الآلية بناء على مجموعة من الرواية ومقاييس ثابتة.نقيم الفرقة باستخدام ارتباط لعشرات MQM القائم على الخبراء ورشة عمل WMT 2021 المقاييس.في كل من إعدادات المونولينغوية والصفرية القصيرة، نعرض تحسنا كب يرا في الأداء على مقاييس واحدة.في الإعدادات المتبادلة، نوضح أيضا أن نهج الفرع ينطبق جيدا على اللغات غير المرئية.علاوة على ذلك، نحدد خط أساس قوي خال من المرجعية التي تتفوق باستمرار على تدابير بلو واستخدامها بشكل شائع وتحسين أداء فرقنا بشكل كبير.
عندما ينتشر خطاب الكراهية على وسائل التواصل الاجتماعي والمجتمعات عبر الإنترنت، يستمر البحث في العمل على الكشف التلقائي.في الآونة الأخيرة، كان أداء الاعتراف يتزايد بفضل التقدم في التعلم العميق وإدماج ميزات المستخدم.يحقق هذا العمل في الآثار التي يمكن أ ن تحتوي هذه الميزات على نموذج للكشف.على عكس البحث السابق، نظهر أن مقارنة الأداء البسيطة لا تعرض التأثير الكامل لضمان معلومات السياق والمستخدمية.من خلال الاستفادة من تقنيات الشرط، نعرض (1) يلعب ميزات المستخدم دورا في قرار النموذج و (2) كيف تؤثر على مساحة الميزة المستفادة من النموذج.إلى جانب الكشف عن ذلك --- وتوضيح أيضا لماذا --- ميزات المستخدم هي سبب مكاسب الأداء، نوضح كيف يمكن دمج هذه التقنيات إلى فهم النموذج بشكل أفضل والكشف عن التحيز غير المقصود.
تقدم الورقة تقديمنا إلى المهمة المشتركة WMT2021 بشأن تقدير الجودة (QE).نشارك في تنبؤات مستوى الجملة للأحكام البشرية وجهد ما بعد التحرير.نقترح نهج زجاجي مربع بناء على الاهتمام للأوزان المستخرجة من أنظمة الترجمة الآلية.على النقيض من الأعمال السابقة، نس تكشف مباشرة مصفوفات وزن الاهتمام دون استبدالها بمقاييس عامة (مثل Entropy).نظهر أن بعض نماذجنا يمكن تدريبها بكمية صغيرة من البيانات ذات التكلفة العالية.في غياب البيانات التدريبية، لا يزال نهجنا يوضح ارتباطا خطيا معتدلا، عند تدريب البيانات الاصطناعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا