في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. نحاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.
In this paper and we explore different techniques of overcoming the challenges of low-resource in Neural Machine Translation (NMT) and specifically focusing on the case of English-Marathi NMT. NMT systems require a large amount of parallel corpora to obtain good quality translations. We try to mitigate the low-resource problem by augmenting parallel corpora or by using transfer learning. Techniques such as Phrase Table Injection (PTI) and back-translation and mixing of language corpora are used for enhancing the parallel data; whereas pivoting and multilingual embeddings are used to leverage transfer learning. For pivoting and Hindi comes in as assisting language for English-Marathi translation. Compared to baseline transformer model and a significant improvement trend in BLEU score is observed across various techniques. We have done extensive manual and automatic and qualitative evaluation of our systems. Since the trend in Machine Translation (MT) today is post-editing and measuring of Human Effort Reduction (HER) and we have given our preliminary observations on Translation Edit Rate (TER) vs. BLEU score study and where TER is regarded as a measure of HER.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نصفنا (Team - Onenlp-IITH) مناهج الترجمة الآلية العصبية الخاصة بنا للماراثية الإنجليزية (كلا الاتجاه) ل LORESMT-20211.جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام ميزات لغوية مختلفة مثل نقاط البيع والتحول في وحدة ا
تقدم التطورات الحديثة في الترجمة الآلية العصبية غير المدعومة (IPNMT) من الفجوة بين أداء ترجمة الآلات الخاضعة للإشراف وغير المعروضة لأزواج اللغة ذات الصلة عن كثب. ومع ذلك، والوضع مختلف جدا على أزواج اللغة البعيدة. يؤدي نقص التداخل في المعجم وانخفاض ال
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور،
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم