ترغب بنشر مسار تعليمي؟ اضغط هنا

Spartans @ LT-EDI-EACL2021: كشف الكلام الشامل باستخدام نماذج اللغة المحددة مسبقا

Spartans@LT-EDI-EACL2021: Inclusive Speech Detection using Pretrained Language Models

270   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نصف نظامنا الذي تم تصنيفه في المرتبة الأولى في مهمة الكشف عن الكلام في الأمل (HSD) ورابعا في مهمة تشارك في الهجوم (OLI)، سواء في لغة التاميل.الهدف من HSD و OLI هو تحديد ما إذا كان تعليق أو منشور مختلط من التعليمات البرمجية يحتوي على خطاب نأمل أو محتوى مسيحي على التوالي.نقوم مسبقا بتدريب نموذج روبرتا المستندة إلى المحولات باستخدام البيانات المختلطة التي تم إنشاؤها بشكل عام واستخدامها في مجموعة جنبا إلى جنب مع نموذج Ulmfit المدرب مسبقا متاحا من Inltk.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نصف نهجنا تجاه استخدام النماذج المدربة مسبقا لمهمة الكشف عن الكلام الأمل.شاركنا في المهمة 2: الكشف عن الكلام للأمل للتساوي والتنوع والإدماج في LT-EDI-2021 @ EACL2021.الهدف من هذه المهمة هو التنبؤ بحضور خطاب الأمل، إلى جانب وجود العينات التي لا تنتمي إلى نفس اللغة في مجموعة البيانات.نحن نصف نهجنا لضبط روبرتا من أجل الكشف عن الكلام على الأمل باللغة الإنجليزية ونهجنا لضبط XLM-Roberta من أجل الكشف عن الكلام في التاميل والمالايالام، وهو لغتين منخفضان من الموارد.نوضح أداء نهجنا على تصنيف النص في الأمل، غير الأمل وغير اللغة.تصنيفنا في المرتبة الأولى في اللغة الإنجليزية (F1 = 0.93)، الأول في التاميل (F1 = 0.61) و 3 في مالايالام (F1 = 0.83).
تهدف هذه الورقة إلى وصف النهج الذي اعتدنا عليه اكتشاف خطاب الأمل في مجموعة بيانات Hopeiedi.جربنا مع نهجين.في النهج الأول، استخدمنا ادارة سياقية لتدريب المصنفات باستخدام الانحدار اللوجستي، والغابات العشوائية، و SVM، و LSTM.النهج الثاني المعني باستخدام فرقة التصويت للأغلبية من 11 نماذج تم الحصول عليها عن طريق نماذج محولات محول مدربة مسبقا (بيرت، ألبرت، روبرتا، Inderbert) بعد إضافة طبقة إخراج.وجدنا أن النهج الثاني كان متفوقا على اللغة الإنجليزية والتاميل والمالايالامية.حصل حلنا على درجة مرجحة F1 من 0.93 و 0.75 و 0.49 للغة الإنجليزية ومالايالامية والتاميل على التوالي.احتل محلولنا في المرتبة الأولى باللغة الإنجليزية، الثامن في ملايال و 11 في التاميل.
التحليل والكشف عن البيانات المختلطة من الكود أمر حتمي في الأوساط الأكاديمية والصناعة، في بلد متعدد اللغات مثل الهند، من أجل حل المشاكل معالجة اللغة الطبيعية في Apropos.تقترح هذه الورقة ذاكرة قصيرة الأجل الطويلة الأجل (Bilstm) مع النهج القائم على الاه تمام، في حل مشكلة الكشف عن الكلام الأمل.باستخدام هذا النهج، تم تحقيق نتيجة F1 من 0.73 (9 أنثو) في مجموعة بيانات ملليالامية - من بين ما مجموعه 31 فريقا شاركت في المسابقة.
في مجتمع اليوم، يتيح لنا التطوير السريع لتكنولوجيا الاتصالات التواصل مع أشخاص من أجزاء مختلفة من العالم. في عملية الاتصال، يعامل كل شخص الآخرين بشكل مختلف. يتم استخدام بعض الأشخاص في استخدام اللغة الهجومية والساخرة للتعبير عن آرائهم. هذه الكلمات تسبب الألم للآخرين وجعل الناس يشعرون بالأسفل. يتم استخدام بعض الأشخاص لتقاسم السعادة مع الآخرين وتشجيع الآخرين. هؤلاء الناس يجلبون الفرح والأمل في الآخرين من خلال كلماتهم. على منصات وسائل التواصل الاجتماعي، فإن هذين النوعين من اللغة هم في كل مكان. إذا كان الناس يرغبون في جعل العالم عبر الإنترنت مكانا أفضل، فسيتعين عليهم التعامل معهما. لذلك تحديد اللغة الهجومية ولغة الأمل مهمة أساسية. كانت هناك العديد من المهام حول اللغة المسيئة. تستخدم مهمة مشتركة على الكشف عن الكلام عن الأمل للمساواة والتنوع والإدماج في LT-EDI 2021-EACL 2021 وجهة نظر فريدة أخرى - لتحديد لغة الأمل في تقديم مساهمات في المجتمع. نموذج XLM-Roberta هو نموذج ممتاز متعدد اللغات. استخدم فريقنا نموذج XLM-Roberta ذو ضبط ضبطه لإنجاز هذه المهمة.
الأمل هو جانب أساسي من استقرار الصحة العقلية والانتعاش في كل فرد في هذا العالم سريع المتغير.ستكون أي أدوات وأساليب تم تطويرها للكشف والتحليل وتوليد خطاب الأمل مفيدا.في هذه الورقة، نقترح نموذجا على اكتشاف الأمل في الأمل للكشف تلقائيا عن محتوى الويب ال ذي قد يلعب دورا إيجابيا في نشر العداء على وسائل التواصل الاجتماعي.نحن نقوم بإجراء التجارب من خلال الاستفادة من نماذج معالجة ما قبل المعالجة والنقل.لاحظنا أن نموذج بيرت متعدد اللغات المدرب مسبقا مع الشبكات العصبية للتنزل أعطى أفضل النتائج.تصنيفنا في المرتبة الأولى والثالث والرابع في المرتبة الإنجليزية ومالايالامية والإنجليزية ومجموعات البيانات المختلطة من التاميل والإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا