ترغب بنشر مسار تعليمي؟ اضغط هنا

أنظمة CUNI في WMT21: إعادة النظر في تقنيات خلفية إعادة النظر في NMT English-Czech

CUNI Systems in WMT21: Revisiting Backtranslation Techniques for English-Czech NMT

247   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن تصف أنظمة NMT الخاصة بنا المقدمة إلى المهمة المشتركة WMT2021 في ترجمة الأخبار الإنجليزية - التشيكية: CUNI-DOCTRANSFORMER (CUBBITT على مستوى المستند) و Cuni-Marian-Baselines.نحن نحسن السابق بمعالجة أفضل من تجزئة الجملة وعلاج ما بعد معالجة الأخطاء في تحديد الأرقام والوحدات.نحن نستخدم الأخير للتجارب مع تقنيات الخلفية المختلفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.تم تصنيف تقديمنا في المرتبة الثانية في مقياس التطابق الدقيق الذي يقوم بتقييم قدرة النموذج على إنتاج المصطلحات المرغوبة في الترجمة.
عملت نماذج اللغة المحددة من قبل العمود الفقري للعديد من النتائج NLP الحديثة. هذه النماذج كبيرة ومكلفة لتدريب. يشير العمل الحديث إلى أن الاحيلاء المستمر على البيانات الخاصة بمهام المهام يستحق هذا الجهد كقاولات محدبة لتحسين الأداء في مهام المصب. نستكشف بدائل لحقوق المهام ذات المستوى الشامل من النماذج اللغوية من خلال استخدام وحدات محول، ونهج فعال مع المعلمة لنقل التعلم. نجد أن محاولات محول يستند إلى تحقيق نتائج مماثلة لإحاطاء المهام المحدد أثناء استخدام جزء بسيط من المعلمات التدريبية الشاملة. نحن نستكشف بشكل مباشر عن الاستخدام المباشر للمحولات دون احتجاج ويجد أن الضبط الدقيق المباشر ينفذ في الغالب على قدم المساواة مع نماذج محول مسبقا، ومتناقض مع الفوائد المقترحة سابقا للمحاكاة المستمرة في استراتيجيات ضبط دقيقة تماما. أخيرا، نقوم بإجراء دراسة الاجتثاث حول الاحتجاج بالتكيف مع المهام للتحقيق في كيفية إجراء إعدادات مختلفة من ضغطات HyperParameter فعالية الاحتجاج.
عند بناء أنظمة الترجمة الآلات، يحتاج المرء في كثير من الأحيان إلى الاستفادة القصوى من مجموعات غير متجانسة من البيانات الموازية في التدريب، والتعامل مع المدخلات بقوة من المجالات غير المتوقعة في الاختبار.جذبت هذا السيناريو متعدد المجالات الكثير من العم ل الحديث الذي يقع تحت المظلة العامة لتعلم النقل.في هذه الدراسة، نشجع الترجمة متعددة المجالات، بهدف صياغة الدوافع لتطوير هذه الأنظمة والتوقعات المرتبطة فيما يتعلق بالأداء.تبين تجاربنا مع عينة كبيرة من أنظمة المجال متعددة أن معظم هذه التوقعات تلتقي بالكاد وتشير إلى أن هناك حاجة إلى مزيد من العمل لتحليل السلوك الحالي لأنظمة المجالات المتعددة وجعلها تمسك بوعودها بالكامل.
تفرض فرضية كثافة المعلومات الموحدة (UID) تفضيل بين مستخدمي اللغة للكلمات المهنية بحيث يتم توزيع هذه المعلومات بشكل موحد عبر إشارة. في حين أن آثارها على الإنتاج اللغوي قد تم استكشافها جيدا، إلا أن الفرضية يحتمل أن تجعل تنبؤات حول فهم اللغة والقبول الل غوي أيضا. علاوة على ذلك، من غير الواضح كيف ينبغي قياس التوحيد في إشارة لغوية --- أو عدم وجوده --- والوحدة اللغوية، على سبيل المثال، الحكم أو مستوى اللغة، يجب أن تعقد هذه التوحيد. نحن هنا التحقيق في هذه الجوانب من الفرضية UID باستخدام وقت القراءة وبيانات القبول. في حين أن نتائج وقت القراءة لدينا تعمل بشكل عام مع العمل السابق، فإنها تتفق أيضا مع تأثير خطي ضعيف ضعيف، والتي ستكون متوافقة مع توقعات UID. للحصول على أحكام القبول، نجد دليلا أكثر وضوحا على أن عدم التوحيد في كثافة المعلومات هو التنبؤ بانخفاض القبول. ثم نستكشف عمليات تشغيل متعددة من UID، بدافع من تفسيرات مختلفة للفرضية الأصلية، وتحليل النطاق الذي تمارسه الضغط نحو التوحيد. تشير القوة التوضيحية المتمثلة في مجموعة فرعية من عمليات الفرعية المقترحة إلى أن أقوى الاتجاه قد يكون الانحدار نحو مفاجأة يعني في جميع أنحاء اللغة، بدلا من العبارة أو الجملة أو الوثيقة --- اكتشاف يدعم تفسير نموذجي ل UID، أي أنه هو المنتج الثانوي للمستخدمين اللغويين تعظيم استخدام قناة اتصال (افتراضية).
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا