ترغب بنشر مسار تعليمي؟ اضغط هنا

تحديد خطأ للحصول على الترجمة الآلية مع التضمين المتري والاهتمام

Error Identification for Machine Translation with Metric Embedding and Attention

218   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تبين أن تقدير الجودة (QE) للترجمة الآلية تصل إلى دقة عالية نسبيا في التنبؤ بعشرات على مستوى الجملة، والاعتماد على المدينات السياقية المحددة مسبقا وعشرات الجودة المنتجة للإنسان. ومع ذلك، فإن الافتقار إلى التفسيرات إلى جانب القرارات التي اتخذتها النماذج العصبية نهاية إلى نهاية تجعل النتائج يصعب تفسيرها. علاوة على ذلك، فإن مجموعات البيانات المشروحة على مستوى الكلمات نادرة بسبب الجهد الباهظ المطلوب لإجراء هذه المهمة، في حين أنهم قد يوفرون إشارات قابلة للتفسير بالإضافة إلى مخرجات QE على مستوى الجملة. في هذه الورقة، نقترح هندسة QE الجديدة التي تعالج كل من ندرة البيانات على مستوى الكلمة والقيود التفسيرية للنهج الأخيرة. يتم احترام مكونات مستوى الجملة ومستوى الكلمات بشكل مشترك من خلال آلية اهتمام بناء على البيانات الاصطناعية ومجموعة من مقاييس MT المضمنة في مساحة مشتركة. يتم تقييم نهجنا على المهمة المشتركة ESPR4NLP 2021 وتوصل عمليات التقديمات لدينا إلى المركز الأول في جميع أزواج اللغات. تظهر استخراج أوزان الاهتمام المتراكي إلى المدخلات أن مقاييس مختلفة تركز على أجزاء مختلفة من المصدر والنص المستهدف، مما يوفر منورات تدريبية قوية في عملية صنع القرار لنموذج QE.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

السيطرة الجميلة المحبوسة على مخرجات الترجمة الآلية (MT) على طول سمات متعددة أمر بالغ الأهمية للعديد من تطبيقات MT الحديثة ومتطلبات الحصول على ثقة المستخدمين. تتمثل النهج القياسي في ممارسة التحكم في MT بإعداد المدخلات بعلامة خاصة للإشارة إلى سمة الإخر اج المرغوبة. على الرغم من بساطته، فإن علامات السمة لديها العديد من العيوب: يجب أن تكون القيم المستمرة في الفئات المنفصلة، ​​وهي غير طبيعية لبعض التطبيقات؛ التدخل بين العلامات المتعددة مفهومة سيئة. نحن نبحث عن هذه المشاكل عن طريق إدخال تدخلات ذات قيمة ناقلات تسمح بالتحكم الدقيق في سمات متعددة في وقت واحد عبر مزيج خطي مرجح من المتجهات المقابلة. بالنسبة لبعض السمات، تسمح نهجنا حتى بضبط نموذج تدرب عليه دون توضيحية لدعم هذه التدخلات. في تجارب ذات ثلاث سمات (الطول والتدانة والروماتونية) واثنين من أزواج اللغة (الإنجليزية إلى الألمانية واليابانية) تحقق نماذجنا تحكما أفضل على مجموعة واسعة من المهام مقارنة بوضع العلامات، لا تتحلل جودة الترجمة عند عدم طلب أي سيطرة. أخيرا، نوضح كيفية تمكين التحكم في نموذج مدرب بالفعل بعد مرحلة صعبة رخيصة نسبيا.
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم على التصنيف على هذه الأخطاء باستخدام العديد من ملصقات نوع الخطأ، لتقييم ترجمة الآلات العملي في عصر الترجمة الآلية العصبية.لقد بذلنا شرحا إضافيا على مجموعات بيانات المقاييس 2015-2017 مع ملصقات الطلاقة والكفاية لتمييز أنواع مختلفة من أخطاء الترجمة من نقاط العرض النحوية والدلسة.نقدم معايير التقييم البشرية لدينا لتطوير Corpus وتجارب التقييم التلقائي باستخدام Corpus.سيتم إتاحة كوربوس التقييم البشري علنا عند النشر.
يعد الانتباه عبر الانتباه عنصرا هاما للترجمة الآلية العصبية (NMT)، والتي تتحقق دائما عن طريق انتباه DOT-Product في الأساليب السابقة.ومع ذلك، فإن اهتمام DOT-Product يعتبر فقط الارتباط بين الكلمات بين الكلمات، مما أدى إلى تشتت عند التعامل مع جمل طويلة وإهمال العلاقات المجاورة للمصدر.مستوحاة من اللغويات، فإن القضايا المذكورة أعلاه ناجمة عن تجاهل نوع من الاهتمام، الذي يطلق عليه الانتباه المركزي، الذي يركز على عدة كلمات مركزية ثم ينتشر حولها.في هذا العمل، نطبق نموذج خليط غاوسي (GMM) لنموذج الاهتمام المركزي بالاهتمام الشامل.تبين التجارب والتحليلات التي أجريناها على ثلاث مجموعات من مجموعات البيانات أن الطريقة المقترحة تتفوق على خط الأساس ولديها تحسن كبير في جودة المحاذاة ودقة N-Gram والترجمة الحكم الطويلة.
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة ، يسعى النموذج إلى أوجه تشابه لغة متماثلة كمصدر للإشارة الموازية الضعيفة لتحقيق الترجمة.إن نظرية تشومسكي العالمي النجمية تفترض أن القواعد هي شكل فطري من المعرفة للبشر ويحكمها المبادئ والقيود العالمية.لذلك، في هذه الورقة، نسعى إلى الاستفادة من هذه الأدلة القواعد المشتركة لتوفير إشارات متوازية لغة أكثر صراحة لتعزيز تدريب نماذج الترجمة الآلية غير المنشورة.من خلال تجارب على أزواج لغة متعددة النموذجية، نوضح فعالية مناهجنا المقترحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا