عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد اللغات - والتي تساعد على تحسين أداء الترجمة بالاقتران مع التقنيات الحالية مثل الضبط الدقيق.بالإضافة إلى ذلك، نحاول تعلم منهجا من المناهج الدراسية من MNMT من الصفر بالاشتراك مع تدريب نظام الترجمة باستخدام قطاع الطرق متعددة الذراع السياقية.نعرض على مجموعة بيانات الترجمة المنخفضة من Flores التي يمكن أن توفر هذه المناهج المستفادة نقاطا أفضل للضبط وتحسين الأداء العام لنظام الترجمة.
Low-resource Multilingual Neural Machine Translation (MNMT) is typically tasked with improving the translation performance on one or more language pairs with the aid of high-resource language pairs. In this paper and we propose two simple search based curricula -- orderings of the multilingual training data -- which help improve translation performance in conjunction with existing techniques such as fine-tuning. Additionally and we attempt to learn a curriculum for MNMT from scratch jointly with the training of the translation system using contextual multi-arm bandits. We show on the FLORES low-resource translation dataset that these learned curricula can provide better starting points for fine tuning and improve overall performance of the translation system.
المراجع المستخدمة
https://aclanthology.org/
تحتاج أنظمة الإنتاج NMT عادة إلى خدمة مجالات المتخصصة التي لا تغطيها كوربيا كبيرة ومتاحة بسهولة بشكل مناسب.ونتيجة لذلك، غالبا ما يكون الممارسون نماذج غرضا عاما نماذج عامة على كل من المجالات التي يلبيها منظمةها.ومع ذلك، يمكن أن يصبح عدد المجالات كبيرا
تتطلب أساليب التعلم المنهج الحالية للترجمة الآلية العصبية (NMT) أخذ العينات مبالغ كافية من العينات "من بيانات التدريب في مرحلة التدريب المبكر. هذا غير قابل للتحقيق دائما لغات الموارد المنخفضة حيث تكون كمية البيانات التدريبية محدودة. لمعالجة مثل هذا ا
حاليا، تتلقى الترجمة متعددة اللغات الآلية أكثر اهتماما أكثر وأكثر لأنها تجلب أداء أفضل لغات الموارد المنخفضة (LRLS) وتوفر مساحة أكبر. ومع ذلك، فإن نماذج الترجمة متعددة اللغات الحالية تواجه تحديا شديدا: عدم التوازن. نتيجة لذلك، فإن أداء الترجمة من لغا
تعلم نموذج الترجمة متعددة اللغات ومتعدد اللغات يمثل تحديا لأن البيانات غير المتجانسة والمخطورة تجعل النموذج تتلاقص بشكل غير متسق على مختلف كوربورا في العالم الحقيقي. تتمثل هذه الممارسة الشائعة في ضبط حصة كل جثة في التدريب، بحيث يمكن أن تستفيد عملية ا
تعاني ترجمة الآلات العصبية التي تعتمد على نص ثنائي اللغة مع بيانات تدريبية محدودة من التنوع المعجمي، والتي تقلل من دقة ترجمة الكلمات النادرة وتقلص من تعميم نظام الترجمة.في هذا العمل، نستخدم التسميات التوضيحية المتعددة من مجموعة بيانات متعددة 30 ألفا