ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة الآلية العصبية لنص Sinhala-English

Neural Machine Translation for Sinhala-English Code-Mixed Text

201   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص المختلطة من التعليمات البرمجية إلى لغة قياسية. تظل معظم المحتوى المكتوب من المستخدمين من المستخدمين في وسائل الإعلام الاجتماعية غير المعتمدة بسبب عدم توفر الموارد اللغوية مثل Corpus الموازي. تقترح هذه الورقة نموذجا للترجمة الآلية العصبية (NMT) لترجمة النص المختلط بين السنهالية - الإنجليزية إلى لغة سنهالا. نظرا للموارد المحدودة المتاحة لنص Sinhala-English النص المختلط (SEMM)، يتم إنشاء Corpus الموازي مع جمل SEMM وجمل Sinhala. تحتوي مواقع وسائل التواصل الاجتماعي Srilankan على نصوص SEMM بشكل متكرر أكثر من اللغات القياسية. النموذج المقترح للترجمة النصية المختلطة في التعليمات البرمجية في هذه الدراسة هو مزيج من إطار فك تشفير التشفير مع وحدات LSTM والمعلمين تجبر الخوارزمية. يتم تقييم الجمل المترجمة من النموذج باستخدام متري بلو (تقييم ثنائي اللغة). حقق نموذجنا درجة بلو رائعة للترجمة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نصفنا (Team - Onenlp-IITH) مناهج الترجمة الآلية العصبية الخاصة بنا للماراثية الإنجليزية (كلا الاتجاه) ل LORESMT-20211.جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام ميزات لغوية مختلفة مثل نقاط البيع والتحول في وحدة ا لكلمات الفرعية لكل من اللغة الإنجليزية والماراثية والإنجليزية.بالإضافة إلى ذلك، استكشفنا أيضا الترجمة إلى الأمام والخلف باستخدام بيانات مونولجة الزحف على الويب.حصلنا على 22.2 (عموما 2 ND) و 31.3 (إجمالي 1 سانت) درجات بلو للإنجليزية - المراثي والماراثي - الإنجليزية على التوالي
تصف هذه الورقة أن الأنظمة المقدمة إلى المهمة المشتركة Wat 2021 Multiindicmt بواسطة فريق IITP-MT.نحن نقدم اثنين من أنظمة الترجمة الآلية العصبية متعددة اللغات (NMT) (Inster-to-English والإنجليزية إلى MEDER).ننهي جميع بيانات MED وتخلق المفردات الفرعية ا لتي يتم مشاركتها بين جميع لغات ISS.نحن نستخدم نهج الترجمة الخلفي لتوليد البيانات الاصطناعية التي يتم إلحاقها بالتوازي Corpus وتستخدم لتدريب نماذجنا.يتم تقييم النماذج باستخدام درجات Bleu و Libes و AMFM مع نموذج MEDER-To-To-English يحقق 40.08 Bleu للزوج الهندي والإنجليزي ونموذج اللغة الإنجليزية إلى MERS لتحقيق 34.48 بلو للزوج باللغة الإنجليزية الهندية.ومع ذلك، نلاحظ أن مفردات الكلمة الفرعية المشتركة لا تساعد النموذج الإنجليزي إلى التروس في وقت الجيل، مما أدى إلى إنتاج ترجمات ذات نوعية رديئة للتاميل والتيلجو وميلايالام إلى أزواج باللغة الإنجليزية مع درجة بلو 8.51 و 6.25 و 3.79على التوالى.
الترجمة الآلية تؤدي الترجمة الآلية من لغة طبيعية إلى أخرى. تكمن ترجمة الآلات العصبية بمهارة أحدث في الترجمة الآلية، لكنها تتطلب بيانات تدريبية كافية، وهي مشكلة شديدة لترجمة أزواج لغة الموارد المنخفضة. يتم تقديم مفهوم Multimodal في الترجمة الآلية العص بية (NMT) عن طريق دمج الميزات النصية مع ميزات مرئية لتحسين ترجمة الزوج منخفض الموارد. WAT2021 (ورشة العمل حول الترجمة الآسيوية 2021) تنظم مهمة مشتركة من الترجمة متعددة الوسائط للإنجليزية إلى الهندية. لقد شاركنا نفس الشيء مع اسم الفريق CNLP-NITS-PP في طلبين: متعددة الوسائط والنصية فقط NMT. يحقق هذا العمل في حقن أزواج العبارة عن طريق نهج تكبير البيانات ويحمل تحسين عملنا السابق في Wat2020 في نفس المهمة في كل من NMT النصي فقط و Multimodal NMT. لقد حققنا المرتبة الثانية على مجموعة اختبار التحدي للغة الإنجليزية إلى الهندية الترجمة متعددة الوسائط حيث تقييم ثنائي اللغة من النتيجة 39.28، درجة التقييم البدياسية بديهية سهلة الاستخدام (RIBES) 0.792097، ومقاييس كفاية الطلاقة (AMFM) 0.830230 على التوالي وبعد
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا