ترغب بنشر مسار تعليمي؟ اضغط هنا

اقترب من SMM4H مع نماذج اللغة التراجع التلقائي والترجمة

Approaching SMM4H with auto-regressive language models and back-translation

235   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن تصف عروضنا إلى الطبعة السادسة من المهمة المشتركة للتطبيقات الاجتماعية للتطبيقات الصحية (SMM4H).شارك فريقنا (ognlp) في المهمة الفرعية: تصنيف تغريدات القضايا المحتملة للإبلاغ عنها الذاتي (المهمة 5).بالنسبة لتقديم طلباتنا، عملنا أنظمة بناء على نماذج المحولات التراجع التلقائي (XLNET) والترجمة الخلفية لموازنة DataSet.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الترجمة المرجودة (BT) من Target Monolingual Corpora هي استراتيجية تكبير البيانات المستخدمة على نطاق واسع للترجمة الآلية العصبية (NMT)، خاصة بالنسبة لأزواج لغة الموارد المنخفضة. لتحسين فعالية بيانات BT المتاحة، نقدم HINTEDBT --- عائلة من التقنيات التي توفر تلميحات (من خلال العلامات) إلى التشفير والكشف. أولا، نقترح طريقة جديدة لاستخدام بيانات BT عالية الجودة عالية ومنخفضة من خلال توفير تلميحات (كعلامات مصدر على التشفير) إلى النموذج حول جودة كل زوج من المصدر. لا نقوم بتصفية بيانات منخفضة الجودة ولكنها تظهر بدلا من ذلك أن هذه التلميحات تمكن النموذج للتعلم بفعالية من البيانات الصاخبة. ثانيا، نتعلم مشكلة التنبؤ بما إذا كان يجب ترجمة الرمزية المصدر أو ترجمة إلى اللغة المستهدفة، وهو أمر شائع في مهام الترجمة عبر البرامج النصية (I.E.E.، حيث لا يشارك المصدر والهدف النصي الكتابي). بالنسبة لهذه الحالات، نقترح تدريب النموذج بألم تلميحات إضافية (كعلامات مستهدفة على وحدة فك التشفير) التي توفر معلومات حول العملية المطلوبة في المصدر (الترجمة أو الترجمة والترجمة). نقوم بإجراء تجارب وتحليلات مفصلة على معايير WMT القياسية لثلاثة أزواج لغة منخفضة / متوسطة الموارد: الهندية، الغوجاراتية، تاميل إلى الإنجليزية. تقارن أساليبنا إيجابية مع خمس خطوط خطوط خطية قوية وأنشأت بشكل جيد. نظهر أن استخدام هذه التلميحات، كلاهما بشكل منفصل وبعضها البعض، يحسن جودة الترجمة بشكل كبير ويؤدي إلى أداء أحدث في أزواج اللغة الثلاثة في إعدادات ثنائية اللغة المقابلة.
التأطير ينطوي على العرض التقديمي الإيجابي أو السلبي للحجة أو إصدار اعتمادا على جمهور المتكلم والهدف.يمكن أن يكون للاختلافات في تأطير معجمي، محور عملنا، آثار كبيرة على آراء ومعتقدات الشعوب.لإحراز تقدم نحو حجج Reframing للتأثيرات الإيجابية، نقوم بإنشاء مجموعة بيانات وطريقة لهذه المهمة.نحن نستخدم موردا معجميا للدلالات "" لإنشاء كائن متوازي واقتراح طريقة للوقائية التي تجمع بين جيل النص القابل للتحكم (دلالة إيجابية) مع مكون استقصي بعد فك التشفير (نفس الإشارات).تظهر نتائجنا أن طريقتنا فعالة مقارنة مع خطوط الأساس القوية على طول أبعاد الطلاقة والمعنى والجدارة بالثقة / الحد من الخوف.
تعلق نظام ترجمة لغة الإشارة المتتالية في خرائط أول خريطة توقيع مقاطع فيديو لمعالجة التوضيحية ثم تترجم لمعان اللغات في لغات منطوقة.يركز هذا العمل على مكون الترجمة اللامع في المرحلة الثانية، وهو أمر صعب بسبب ندرة البيانات الموازية المتاحة للجمهور.نحن ن قترب الترجمة اللمعان كمهامة ترجمة آلية منخفضة الموارد والتحقيق في طريقتين شعبيتين لتحسين جودة الترجمة: فرط HyperParameter و Backtranslation.نناقش الإمكانات والمخاطر من هذه الأساليب بناء على تجارب في مجموعة بيانات RWTH-Phoenix-Weather 2014T.
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني كبير لتوليد مجموعات بيانات مناسبة من الحجم الكافي.في هذه الورقة، نظير على هذه الورقة، نظرا لأن PLMS يمكن أن يتم الاستفادة منها للحصول على مدينات جملة عالية الجودة دون الحاجة إلى البيانات المسمى أو التصميم أو التعديلات على الهدف المحدد: نحن نستخدم القدرات الاستهادة للمقطوعات الكبيرة والأداء عالية الأداء لتوليد مجموعات بيانات كاملةأزواج النص المسمى من نقطة الصفر، والتي نستخدمها بعد ذلك للحصول على نماذج أصغر بكثير وأكثر كفاءة.يتفوق نهجنا غير المعدل بالكامل بشكل كامل
يقدم هذا العمل مجموعة متنوعة بسيطة لتقييم جودة الترجمة الآلية بناء على مجموعة من الرواية ومقاييس ثابتة.نقيم الفرقة باستخدام ارتباط لعشرات MQM القائم على الخبراء ورشة عمل WMT 2021 المقاييس.في كل من إعدادات المونولينغوية والصفرية القصيرة، نعرض تحسنا كب يرا في الأداء على مقاييس واحدة.في الإعدادات المتبادلة، نوضح أيضا أن نهج الفرع ينطبق جيدا على اللغات غير المرئية.علاوة على ذلك، نحدد خط أساس قوي خال من المرجعية التي تتفوق باستمرار على تدابير بلو واستخدامها بشكل شائع وتحسين أداء فرقنا بشكل كبير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا