مع أن تصبح الإنترنت جزءا لا يتجزأ من حياتنا، زادت المشاركة في وسائل التواصل الاجتماعي كثيرا. أصبح تحديد المحتوى الهجومي والقضاء عليه من وسائل التواصل الاجتماعي بأولوية قصوى لمنع أي نوع من العنف. ومع ذلك، فإن اكتشاف المحتوى المشجع والداعم والإيجابي مهم بنفس القدر لمنع إساءة استخدام الرقابة المستهدفة لمهاجمة حرية التعبير. تقدم هذه الورقة نظامنا للكشف عن الكلام المهمة المشتركة للأمل للهاتف والتنوع وإدراجه في LT-EDI، EACL 2021. يتم توفير بيانات هذه المهمة المشتركة باللغة الإنجليزية والتاميل والمالايالامية التي تم جمعها من تعليقات YouTube. إنها مشكلة تصنيف متعدد الألوان حيث يتم تصنيف كل مثيل بيانات في أحد الفئات الثلاثة: خطاب الأمل "، وليس الكلام"، وليس في اللغة المقصودة ". نقترح نظام يستخدم نماذج محولات متعددة اللغات للحصول على تمثيل النص وتصنيفه إلى أحد الفئات الثلاثة. استكشفنا استخدام النماذج متعددة اللغات المدربة خصيصا للغات الهندية جنبا إلى جنب مع نماذج متعددة اللغات العامة. تم تصنيف نظامنا في المرتبة الثانية للغة الإنجليزية والثاني للأللايالام، والسابع من أجل لغة التاميل في مجلس الإدارة النهائي الذي نشره المنظمون وحصلوا على درجة مئوية F1 من 0.92، 0.84، 0.55 على التوالي على مجموعة بيانات الاختبار الخفية المستخدمة في المنافسة. لقد جعلنا نظامنا متاحا علنا في جيثب.
With the internet becoming part and parcel of our lives, engagement in social media has increased a lot. Identifying and eliminating offensive content from social media has become of utmost priority to prevent any kind of violence. However, detecting encouraging, supportive and positive content is equally important to prevent misuse of censorship targeted to attack freedom of speech. This paper presents our system for the shared task Hope Speech Detection for Equality, Diversity, and Inclusion at LT-EDI, EACL 2021. The data for this shared task is provided in English, Tamil, and Malayalam which was collected from YouTube comments. It is a multiclass classification problem where each data instance is categorized into one of the three classes: Hope speech', Not hope speech', and Not in intended language'. We propose a system that employs multilingual transformer models to obtain the representation of text and classifies it into one of the three classes. We explored the use of multilingual models trained specifically for Indian languages along with generic multilingual models. Our system was ranked 2nd for English, 2nd for Malayalam, and 7th for the Tamil language in the final leader board published by organizers and obtained a weighted F1-score of 0.92, 0.84, 0.55 respectively on the hidden test dataset used for the competition. We have made our system publicly available at GitHub.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة تقديم فريق IIITK إلى اكتشاف الكلام في الأمل للهاتف والتنوع والإدراج في المهمة المشتركة لغات Dravidian التي نظمتها LT-EDI 2021 ورشة عمل @ EACL 2021. أفضل تكوينات المهام المشتركة تحقق درجات F1 المرجح من 0.60 من أجل التاميل0.83 للمالايال
التحليل والكشف عن البيانات المختلطة من الكود أمر حتمي في الأوساط الأكاديمية والصناعة، في بلد متعدد اللغات مثل الهند، من أجل حل المشاكل معالجة اللغة الطبيعية في Apropos.تقترح هذه الورقة ذاكرة قصيرة الأجل الطويلة الأجل (Bilstm) مع النهج القائم على الاه
تعتبر الأمل مهمة بالنسبة لرفاهية الحياة البشرية واستعادتها من قبل المهنيين الصحيين.يعكس خطاب الأمل الاعتقاد بأن المرء يمكنه اكتشاف مسارات لأهدافها المرجوة وتصبح طرحا للاستفادة من هذه المسارات.لتشجيع البحث في معالجة اللغة الطبيعية نحو نهج التعزيز الإي
في هذه الورقة نعمل مع كورسيا الكشف عن الكلام تتضمن مجموعات بيانات اللغة الإنجليزية والتاميل والمالياالام.نقدم آلية مرحلتين لاكتشاف خطاب الأمل.في المرحلة الأولى، نبني مصنف لتحديد لغة النص.في المرحلة الثانية، نبني مصنف للكشف عن خطاب الأمل أو الكلام غير
في هذه الورقة، نصف نهجنا تجاه استخدام النماذج المدربة مسبقا لمهمة الكشف عن الكلام الأمل.شاركنا في المهمة 2: الكشف عن الكلام للأمل للتساوي والتنوع والإدماج في LT-EDI-2021 @ EACL2021.الهدف من هذه المهمة هو التنبؤ بحضور خطاب الأمل، إلى جانب وجود العينات