ترغب بنشر مسار تعليمي؟ اضغط هنا

IIIt Hyderabad التقديم إلى WAT 2021: فعالة أنظمة NMT متعددة اللغات متعددة اللغات الهندية

IIIT Hyderabad Submission To WAT 2021: Efficient Multilingual NMT systems for Indian languages

426   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة العمل والأنظمة المقدمة من فريق IIIT-HYDERBAD في مهمة WAT 2021 Multiindicmt المشتركة. تغطي المهمة 10 لغات رئيسية من شبه القارة الهندية. بالنسبة لنطاق هذه المهمة، قمنا ببناء أنظمة متعددة اللغات لمدة 20 ساعة توسيعية وهي الإنجليزية-MED (ONE-LICONE) وإرش إنجليزي (كثير إلى واحد). منفردة، اللغات الهندية هي فقراء الموارد التي تعيق جودة الترجمة ولكن من خلال الاستفادة من تعدد اللغات والهدوضة غير اللغوية والنباتية، يمكن تعزيز جودة الترجمة بشكل كبير. لكن أنظمة متعددة اللغات معقدة للغاية من حيث الوقت وكذلك الموارد الحسابية. لذلك، نحن ندرب أنظمتنا من خلال إلقاء البيانات الكفاءة التي سيساهم في الواقع في معظم عملية التعلم. علاوة على ذلك، نحن نستغل أيضا اللغة المتعلقة بعثر بين اللغات الهندية. تم إجراء جميع المقارنات باستخدام نقاط بلو ووجدت أن نظامنا متعدد اللغات النهائي يتفوق بشكل كبير على خطوط الأساس بمعدل 11.3 و 19.6 نقاط بلو لترويج الإنجليزي (EN-XX) وإرادي الإنشاءات الإنجليزي (XX-EN) ، على التوالى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم تفاصيل النظم التي قدمناها مقابل WAT 2021 Multiindicmt: مهمة متعددة اللغات.لقد قدمنا نماذج NMT متعددة اللغات منفصلة: واحد للغة الإنجليزية إلى 10 لغات ind وآخر ل 10 لغات ind للغة الإنجليزية.نناقش تفاصيل تنفيذ نهجين منفصلين متعدد الل غات NMT، وهما واحدا وكثير من الأحيان والعديد من إلى واحد، والذي يستفيد من وحدة فك ترميز مشتركة ومشمير مشترك، على التوالي.من تجاربنا، نلاحظ أن أنظمة NMT متعددة اللغات تتفوق على أنظمة طيران الأساس ثنائية اللغة لكل من أزواج اللغة قيد الدراسة.
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
تقدم هذه الورقة مشاركة أنظمة الترجمة الآلية العصبية في مهام الترجمة المشتركة WAT 2021 (معرف الفريق: ساكورا).شاركنا في (I) NIST-SAP، (2) ترجمة متعددة الوسائط اليابانية-الإنجليزية، (III) متعددة اللغات، و (4) مهام الترجمة الإنجليزية Myanmar-English.مناه ج متعددة اللغات مثل MBART (ليو وآخرون.، 2020) قادرون على تدريب ما قبل التدريب على نموذج تسلسل كامل وتسلسل إلى متعدد اللغات من خلال الأهداف المنقحية، مما يجعلها نقطة انطلاق رائعة لبناء أنظمة الترجمة متعددة اللغات.التركيز الرئيسي لدينا في هذا العمل هو التحقيق في فعالية Finetuning متعددة اللغات في نموذج لغة متعددة اللغات على مهام الترجمة المختلفة، بما في ذلك ترجمة الموارد المنخفضة والمتعددة الوسائط والمختلطة.نسمح أيضا نهجا متعدد الوسائط بناء على التمثيل المرئي العالمي (تشانغ وآخرون، 2019) ومقارنة أدائه ضد نهج غير مهني بناء على MBART بمفرده.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا