ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة الآلية العصبية مع المعجم المصمم

Neural Machine Translation with Inflected Lexicon

374   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النموذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الاتساق المصطلحات هو شرط أساسي للترجمة الصناعية.تحتوي المصطلحات ذات الجودة اليدوية عالية الجودة على إدخالات في أشكالها الاسمية.دمج مثل هذه المصطلحات في الترجمة الآلية ليست مهمة تافهة.يجب أن يكون نظام MT قادرا على إزالة المهاطين على الجانب المصدر واخت ر WordForm الصحيح على الجانب المستهدف.في هذا العمل، نقترح طريقة بسيطة ولكنها فعالة ل Disambiguation Homograph وطريقة اختيار WordForm من خلال إدخال قيود معجمية متعددة الخيارات.نقترح أيضا مقياس قياسي لقياس الاتساق المصطحي للترجمة.نتائجنا لها تحسن كبير على سوتا الحالي من حيث الاتساق المصطاعي دون أي خسارة في النتيجة بلو.سيتم نشر جميع التعليمات البرمجية المستخدمة في هذا العمل كمصدر مفتوح.
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة ، يسعى النموذج إلى أوجه تشابه لغة متماثلة كمصدر للإشارة الموازية الضعيفة لتحقيق الترجمة.إن نظرية تشومسكي العالمي النجمية تفترض أن القواعد هي شكل فطري من المعرفة للبشر ويحكمها المبادئ والقيود العالمية.لذلك، في هذه الورقة، نسعى إلى الاستفادة من هذه الأدلة القواعد المشتركة لتوفير إشارات متوازية لغة أكثر صراحة لتعزيز تدريب نماذج الترجمة الآلية غير المنشورة.من خلال تجارب على أزواج لغة متعددة النموذجية، نوضح فعالية مناهجنا المقترحة.
تعرض نهج الترجمة الآلية العصبية (NMT) التي توظف بيانات أحادية الأحادية تحسينات ثابتة في الظروف الغنية بالموارد. ومع ذلك، فإن التقييمات باستخدام لغات العالم الحقيقي LowResource لا تزال تؤدي إلى أداء غير مرضي. يقترح هذا العمل نهج نمذجة Zeroshot NMT NMT NMT يتعلم بدون افتراض لغة محورية الآن بتقاسم البيانات الموازية مع المصدر الصفر واللغات المستهدفة. يعتمد نهجنا على ثلاث مراحل: التهيئة من أي نموذج NMT المدرب مسبقا مراقبة اللغة المستهدفة على الأقل، وتعزيز جوانب المصدر التي تستفيد من بيانات الأحادية المستهدفة، وتعلم تحسين النموذج الأولي إلى زوج الطلقة الصفرية، حيث الأخيران تشكل دورة selflearyling. تظهر النتائج التجريبية التي تنطوي على أربعة متنوعة (من حيث أسرة اللغة، البرنامج النصي ورابطتها) أزواج صفرية بالرصاص فعالية نهجنا مع ما يصل إلى +5.93 لتحسين بلو على خط الأساس ثنائي اللغة الخاضع للإشراف. بالمقارنة مع NMT غير المدعومة، يلاحظ التحسينات المستمرة حتى في إعداد عدم تطابق المجال، مما يدل على قابلية استخدام طريقتنا.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا