ترغب بنشر مسار تعليمي؟ اضغط هنا

اللغة الهجومية العربية على تويتر: التحليل والتجارب

Arabic Offensive Language on Twitter: Analysis and Experiments

314   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف.نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5 000 وظيفة مدونات دقيقة مشروح من عدد كبير من المحن المعلقين المتطوعين.إن اتفاقية المعلن والتمييز التلقائي الأولي الناتج نواجهها تتماشى مع جهود التوضيحية السابقة.
كانت الانتخابات الأمريكية 2020، أكثر من أي وقت مضى، تتميز بحملات وسائل التواصل الاجتماعي والاتهامات المتبادلة. نحن نحقق في هذه الورقة إذا كان هذا يتجلى أيضا في الاتصالات عبر الإنترنت من مؤيدي المرشحين بايدن وترامب، من خلال نطق التواصل البغيض والهجومي . نقوم بصياغة مهمة توضيحية، نمتلك فيها مهام الكشف عن الكلام والموقف البغيضة / الهجومية، والاحليق على 3000 تغريدات من فترة الحملة، إذا أعربوا عن موقف معين تجاه المرشح. بجانب الطبقات المنشأة المتميزة من مواتية وضد، نقوم بإضافة مواقف مختلطة ومحايدة وأوضح أيضا إذا تم ذكر مرشح تعبير الرأي. علاوة على ذلك، نحن نلاحظ إذا كانت سقسقة مكتوبة بأسلوب مسيء. وهذا يتيح لنا أن نحلل إذا كان مؤيدو جو بايدن والحزب الديمقراطي يتواصلون بشكل مختلف عن أنصار دونالد ترامب والحزب الجمهوري. يوضح مصنف Bert Baseline أن الكشف إذا كان شخص ما مؤيد للمرشح يمكن إجراء جودة عالية ( (.79 F1 و .64 F1، على التوالي). لا يزال الكشف التلقائي لخطاب الكراهية / الهجومية تحديا (مع .53 F1). تتمتع كوربوس لدينا علنا ​​وتشكل مصدرا جديدا للنمذجة الحسابية للغة الهجومية قيد النظر في المواقف.
كان الهدف من هذا العمل هو إدخال نهج فعال يستند إلى نموذج اللغة العربية لمكافحة التغريدات Covid-19 InfoDemic.تم ترتيبها في شكل خط أنابيب من خطوتين، حيث تضمنت الخطوة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل Twitter Jargon، بما في ذلك الرموز التع بيرية والرموز، في نص عادي، واستغلت الخطوة الثانية نسخة من أرابيرت، والتيتم تدريب مسبقا على نص عادي، لضبط وتصنيف التغريدات فيما يتعلق بتسميةهم.كان استخدام نماذج اللغة المدربة مسبقا على النصوص العادية بدلا من الحصول على تغريدات من الضرورة لمعالجة قضايا نقدية مبينة من الأدبيات العلمية، وهي (1) نماذج اللغة المدربة مسبقا متوفرة على نطاق واسع في العديد من اللغات، وتجنب الوقت-Consuming والتدريب النموذجي المكثف من الموارد مباشرة على تغريدات من نقطة الصفر، مما يتيح التركيز فقط على ضبطه الجميل؛(2) النص العادي المتاح كورسا أكبر من تغريدة فقط، مما يسمح بأداء أفضل.
أصبح الكشف والتحليلات الهجومية تحليلها مجالا رئيسيا للبحث في معالجة اللغة الطبيعية.تعرض حرية المشاركة في وسائل التواصل الاجتماعي مستخدمين عبر الإنترنت للمشاركات المصممة للتشويه أو إهانة أو تؤذيها وفقا للجنس أو العرق أو الدين أو الإيديولوجية أو الخصائ ص الشخصية الأخرى.مع التركيز على المصانعين الشباب من المنصات الاجتماعية المعروفة في Twitter، Instagram، و YouTube، قمنا بجمع كوربوس يتكون من 47،128 تعليقات إسبانية يدويا على الفئات المعروفة الهجومية.تعلق مجموعة فرعية من الجثة درجة من الثقة لكل ملصق، لذلك من الممكن أن كل من تصنيف متعدد الطبقات ودراسات الانحدار المتعدد الناتج ممكن.في هذه الورقة، نقدم كوربوس، ومناقشة عملية بناءها، والمستجدات، وبعض التجارب الأولية معها لتكون خطاس أساسي لمجتمع البحث.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا