ترغب بنشر مسار تعليمي؟ اضغط هنا

HINTEDBT: زيادة الترجمة مرة أخرى مع تلميحات الجودة والترجمة

HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints

258   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الترجمة المرجودة (BT) من Target Monolingual Corpora هي استراتيجية تكبير البيانات المستخدمة على نطاق واسع للترجمة الآلية العصبية (NMT)، خاصة بالنسبة لأزواج لغة الموارد المنخفضة. لتحسين فعالية بيانات BT المتاحة، نقدم HINTEDBT --- عائلة من التقنيات التي توفر تلميحات (من خلال العلامات) إلى التشفير والكشف. أولا، نقترح طريقة جديدة لاستخدام بيانات BT عالية الجودة عالية ومنخفضة من خلال توفير تلميحات (كعلامات مصدر على التشفير) إلى النموذج حول جودة كل زوج من المصدر. لا نقوم بتصفية بيانات منخفضة الجودة ولكنها تظهر بدلا من ذلك أن هذه التلميحات تمكن النموذج للتعلم بفعالية من البيانات الصاخبة. ثانيا، نتعلم مشكلة التنبؤ بما إذا كان يجب ترجمة الرمزية المصدر أو ترجمة إلى اللغة المستهدفة، وهو أمر شائع في مهام الترجمة عبر البرامج النصية (I.E.E.، حيث لا يشارك المصدر والهدف النصي الكتابي). بالنسبة لهذه الحالات، نقترح تدريب النموذج بألم تلميحات إضافية (كعلامات مستهدفة على وحدة فك التشفير) التي توفر معلومات حول العملية المطلوبة في المصدر (الترجمة أو الترجمة والترجمة). نقوم بإجراء تجارب وتحليلات مفصلة على معايير WMT القياسية لثلاثة أزواج لغة منخفضة / متوسطة الموارد: الهندية، الغوجاراتية، تاميل إلى الإنجليزية. تقارن أساليبنا إيجابية مع خمس خطوط خطوط خطية قوية وأنشأت بشكل جيد. نظهر أن استخدام هذه التلميحات، كلاهما بشكل منفصل وبعضها البعض، يحسن جودة الترجمة بشكل كبير ويؤدي إلى أداء أحدث في أزواج اللغة الثلاثة في إعدادات ثنائية اللغة المقابلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن تصف عروضنا إلى الطبعة السادسة من المهمة المشتركة للتطبيقات الاجتماعية للتطبيقات الصحية (SMM4H).شارك فريقنا (ognlp) في المهمة الفرعية: تصنيف تغريدات القضايا المحتملة للإبلاغ عنها الذاتي (المهمة 5).بالنسبة لتقديم طلباتنا، عملنا أنظمة بناء على نماذج المحولات التراجع التلقائي (XLNET) والترجمة الخلفية لموازنة DataSet.
تعد بيانات المعرفة هائلة وواسعة الانتشار في العالم الحقيقي، والتي يمكن أن تكون بمثابة مصادر خارجية جيدة لإثراء المحادثات. ومع ذلك، في محادثات المعرفة، لا تزال النماذج الحالية تفتقر إلى السيطرة الجميلة على اختيار المعرفة والتكامل مع الحوارات، والتي تؤ دي أخيرا إلى مشاكل توليد الاستجابة غير ذات الصلة المعرفة: 1) اختيار المعرفة يعتمد فقط على سياق الحوار، وتجاهل انتقالات المعرفة المتأصلة جنبا إلى جنب مع تدفقات المحادثة؛ 2) غالبا ما تناسب النماذج أثناء التدريب، مما يؤدي إلى استجابة غير متماسكة من خلال الإشارة إلى الرموز غير المرتبطة من محتوى المعرفة المحددة في مرحلة الاختبار؛ 3) على الرغم من أن الاستجابة يتم إنشاؤها على تاريخ الحوار والمعرفة، إلا أن النماذج غالبا ما تميل إلى التغاضي عن المعرفة المحددة، وبالتالي يولد استجابة المعرفة غير ذات الصلة. لمعالجة هذه المشكلات، اقترحنا نموذجي صراحة انتقال المعرفة في محادثات متعددة الدورانية المتسلسلة عن طريق تجريد المعرفة إلى علامات موضوعية. بالإضافة إلى ذلك، لاستخدام المعرفة المختارة بالكامل في عملية التوليد، نقترح ما قبل التدريب مولد الاستجابة على علم المعرفة لدفع المزيد من الاهتمام على المعرفة المحددة. على وجه الخصوص، يقوم نموذج انتقال المعرفة المتسلسل المزود بمولد استجابة مدروس مدرسي مسبقا (SKT-KG) بتصوير انتقال المعرفة الرفيع المستوى ويستخدم بالكامل بيانات المعرفة المحدودة. تشير النتائج التجريبية على كل من معايير الحوار المنظم وغير المنظمة إلى المعرفة المعرفة إلى أن نموذجنا يحقق أداء أفضل على النماذج الأساسية.
تم استخدام أساليب الشبكة العصبية الحديثة الأخيرة (SOTA) وأساليب Neural العصبية الفعالة على أساس النماذج المدربة مسبقا (PTM) في تجزئة الكلمات الصينية (CWS)، وتحقيق نتائج رائعة. ومع ذلك، فإن الأعمال السابقة تركز على تدريب النماذج مع Corpus الثابتة في ك ل تكرار. المعلومات المتوسطة المتوسطة هي أيضا قيمة. علاوة على ذلك، فإن تقلب الأساليب العصبية السابقة محدودة بالبيانات المشروح على نطاق واسع. هناك عدد قليل من الضوضاء في كوربوس المشروح. بذلت جهود محدودة من قبل الدراسات السابقة للتعامل مع هذه المشاكل. في هذا العمل، نقترح نهج CWS الخاضع للإشراف ذاتيا بمعماري مباشر وفعال. أولا، ندرب نموذج تجزئة كلمة واستخدامه لتوليد نتائج التجزئة. بعد ذلك، نستخدم نموذج لغة مصنف منقح (MLM) لتقييم جودة نتائج التجزئة المستندة إلى تنبؤات الامتيازات. أخيرا، نستفيد من التقييمات لمساعدة تدريب القطاع من خلال تحسين الحد الأدنى من التدريب على المخاطر. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب السابقة في 9 مجموعات بيانات مختلفة CWS مع تدريب معايير واحدة وتدريب معايير متعددة وتحقيق متانة أفضل.
يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى KNN (KIF).تعلم كل وحدة KIF عملية قراءة للوصول إلى المعرفة الخارجية الثابتة.نحن نطبق هذه الوحدات النمطية لنمذجة الحوار المولاد، وهي مهمة صعبة حيث يجب استرجاع المعلومات بشكل مرني وإدماجها للحفاظ على موضوع وتدفق المحادثة.نوضح فعالية نهجنا من خلال تحديد المعرفة ذات الصلة المطلوبة للحوار دراية ولكن المشاركة من Wikipedia، والصور، وإظهار أن الاستفادة من هذه المعلومات المستردة تعمل على تحسين أداء النموذج، ويتم قياسه بواسطة التقييم التلقائي والإنساني.
ما قبل التدريب (PT) والترجمة الخلفي (BT) هي طريقتان بسيطان وقويهما لاستخدام البيانات الأولية لتحسين الأداء النموذجي للترجمة الآلية العصبية (NMT).تأخذ هذه الورقة الخطوة الأولى للتحقيق في التكامل بين PT و BT.نقدم اثنين من المهام التحقيق الخاصة ب PT و B T على التوالي وتجد أن PT يساهم بشكل أساسي في وحدة التشفير أثناء قيام BT بتجلب المزيد من الفوائد إلى وحدة فك الترميز.تظهر النتائج التجريبية أن PT و BT مكملة بشكل جيد مع بعضها البعض، وإنشاء عروض أحدث على المعايير WMT16 الإنجليزية والرومانية والروسية.من خلال تحليلات واسعة النطاق على عصالة الجملة وتيرة الكلمة، فإننا نوضح أيضا أن الجمع بين الموسومة BT مع PT هو أكثر فائدة تكاملها، مما يؤدي إلى جودة ترجمة أفضل.شفرة المصدر متاحة بحرية في HTTPS://github.com/sunbowliu/ptvsbt.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا