تراجع الجملة هي تقنية تكييف مجال بسيطة وقوية.نقوم بإجراء تصنيف النطاق لحساب الحوسبة أوزان مع 1) نموذج اللغة Cross Entropy الفرق 2) شبكة عصبية تشفيرية 3) شبكة توتور العصبية العودية.قارنا هذه الأساليب فيما يتعلق بدقة تصنيف المجال ودراسة توزيع الاحتمالات الخلفية.ثم نقوم بتنفيذ تجارب NMT في السيناريو حيث ليس لدينا فورانيا متوازية في المجال وعلى الفورورا المحدودة في المجال.هنا ونحن نستخدم مصنف المجال للاعتقال جمل كوربوس التدريب خارج المجال.هذا يؤدي إلى تحسينات تصل إلى 2.1 بلو للترجمة الألمانية إلى الإنجليزية.
Sentence weighting is a simple and powerful domain adaptation technique. We carry out domain classification for computing sentence weights with 1) language model cross entropy difference 2) a convolutional neural network 3) a Recursive Neural Tensor Network. We compare these approaches with regard to domain classification accuracy and and study the posterior probability distributions. Then we carry out NMT experiments in the scenario where we have no in-domain parallel corpora and and only very limited in-domain monolingual corpora. Here and we use the domain classifier to reweight the sentences of our out-of-domain training corpus. This leads to improvements of up to 2.1 BLEU for German to English translation.
المراجع المستخدمة
https://aclanthology.org/
يمكن فهم لغات الموارد المنخفضة كنغات أكثر شحيحة، وأقل دراستها، أقل امتيازا، أقل شيوعا، والتي تكون أقل شيوعا والتي توجد فيها موارد أقل (Singh، 2008؛ Cieri et al.، 2016؛ Magueresse et al.، 2020) وبعد يركز البحث والتكنولوجيا لمعالجة اللغة الطبيعية (NLP)
انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT)
نحن تصف أنظمة NMT الخاصة بنا المقدمة إلى المهمة المشتركة WMT2021 في ترجمة الأخبار الإنجليزية - التشيكية: CUNI-DOCTRANSFORMER (CUBBITT على مستوى المستند) و Cuni-Marian-Baselines.نحن نحسن السابق بمعالجة أفضل من تجزئة الجملة وعلاج ما بعد معالجة الأخطاء
في الآونة الأخيرة، تقدم DEVENTANGLEMEMEMENEM بناء على شبكة خدرية توليدية أو AutoNCoder التباين بشكل كبير أداء التطبيقات المتنوعة في مجالات السيرة الذاتية و NLP.ومع ذلك، لا تزال هذه النماذج تعمل على مستويات خشنة في تحسين الخصائص ذات الصلة ارتباطا وثيق
تصف هذه الورقة مساهمة Sebamat بمهمة مشتركة بين 2021 WMT Translation.باستخدام مجموعة أدوات الترجمة الآلية العصبية Marian، تم بناء أنظمة الترجمة القائمة على بنية محولات Google في كلا الاتجاهين في الكاتالونية - الإسبانية والبرتغالية - الإسبانية.تم تدريب