ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو تكامل المعجم الدقيقة في الترجمة الآلية العصبية

Towards Precise Lexicon Integration in Neural Machine Translation

354   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الاتساق المصطلحات هو شرط أساسي للترجمة الصناعية.تحتوي المصطلحات ذات الجودة اليدوية عالية الجودة على إدخالات في أشكالها الاسمية.دمج مثل هذه المصطلحات في الترجمة الآلية ليست مهمة تافهة.يجب أن يكون نظام MT قادرا على إزالة المهاطين على الجانب المصدر واختر WordForm الصحيح على الجانب المستهدف.في هذا العمل، نقترح طريقة بسيطة ولكنها فعالة ل Disambiguation Homograph وطريقة اختيار WordForm من خلال إدخال قيود معجمية متعددة الخيارات.نقترح أيضا مقياس قياسي لقياس الاتساق المصطحي للترجمة.نتائجنا لها تحسن كبير على سوتا الحالي من حيث الاتساق المصطاعي دون أي خسارة في النتيجة بلو.سيتم نشر جميع التعليمات البرمجية المستخدمة في هذا العمل كمصدر مفتوح.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
عنصر رئيسي واحد من الترجمة الآلية العصبية هو استخدام مجموعات البيانات الكبيرة من المجالات والموارد المختلفة (E.G. Europarl، TED محادثات).تحتوي مجموعات البيانات هذه على مستندات مترجمة من قبل المترجمين المحترفين باستخدام أنماط الترجمة المختلفة ولكن ثاب تة.على الرغم من ذلك، عادة ما يتم تدريب النموذج بطريقة لا يجسد صراحة مجموعة متنوعة من أنماط الترجمة الموجودة في البيانات ولا تترجم بيانات جديدة في أنماط مختلفة ويمكن التحكم فيها.في هذا العمل، نحقق في طرق زيادة حالة نموذج محول الفن مع معلومات المترجم المتوفرة جزئيا من بيانات التدريب.نظرا لأن نماذج الترجمة المعززة بأسلوبنا قادرة على التقاط الاختلافات النمط للمترجمين وإنشاء ترجمات مع أنماط مختلفة على البيانات الجديدة.في الواقع، تختلف الاختلافات التي تم إنشاؤها بشكل كبير، ما يصل إلى فرق النتيجة +4.5 بلو.على الرغم من ذلك، يؤكد التقييم البشري أن الترجمات من نفس النوعية.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
الترجمة التنبؤية التفاعلية هي عملية تكرارية تعاونية وحيث تنتج مترجمات البشر الترجمات بمساعدة أنظمة الترجمة الآلية (MT) بشكل تفاعلي. توجد تقنيات أخذ العينات المختلفة في التعلم النشط (AL) لتحديث نموذج MT (NMT) العصبي في السيناريو التفاعلي التنبؤ بالتنب ؤ. في هذه الورقة، نستكشف مصطلح مقرها (NEC Count Entity Content (NEC) والجودة (تقدير الجودة (QE) وتقنيات الإشارة (SIM) (SIM)) - والتي تستخدم للعثور على المرشحين المثاليين من البيانات الواردة - للإشراف البشري وتحديث الوزن نموذج MT. نفذنا تجارب مع ثلاث أزواج ولغوية وبيزن. الألمانية-العربية والإسبانية والإنجليزية والهندية الإنجليزية. تنتج تقنية أخذ العينات المقترحة لدينا 1.82 و 0.77 و 0.81 نقطة من نقاط بلو للغة الألمانية والإنجليزية والإسبانية والإنجليزية والإنجليزية والإنجليزية على التوالي وعلى أساس الأساس الأساسي في أخذ العينات العشوائية. كما أنه يحسن الوضع الحالي بمقدار 0.35 و 0.12 نقطة بلو للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي. يحسن جهود التحرير البشري من حيث عدد الكلمات المتغيرة أيضا بنسبة 5 و 4 نقاط للألمانية والإنجليزية والإسبانية والإنجليزية على التوالي ومقارنة مع أحدث من بين الفن.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا