ترغب بنشر مسار تعليمي؟ اضغط هنا

الإساءة: جثة جديدة باللغة الإسبانية لأبحاث اللغة الهجومية

OffendES: A New Corpus in Spanish for Offensive Language Research

363   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح الكشف والتحليلات الهجومية تحليلها مجالا رئيسيا للبحث في معالجة اللغة الطبيعية.تعرض حرية المشاركة في وسائل التواصل الاجتماعي مستخدمين عبر الإنترنت للمشاركات المصممة للتشويه أو إهانة أو تؤذيها وفقا للجنس أو العرق أو الدين أو الإيديولوجية أو الخصائص الشخصية الأخرى.مع التركيز على المصانعين الشباب من المنصات الاجتماعية المعروفة في Twitter، Instagram، و YouTube، قمنا بجمع كوربوس يتكون من 47،128 تعليقات إسبانية يدويا على الفئات المعروفة الهجومية.تعلق مجموعة فرعية من الجثة درجة من الثقة لكل ملصق، لذلك من الممكن أن كل من تصنيف متعدد الطبقات ودراسات الانحدار المتعدد الناتج ممكن.في هذه الورقة، نقدم كوربوس، ومناقشة عملية بناءها، والمستجدات، وبعض التجارب الأولية معها لتكون خطاس أساسي لمجتمع البحث.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.
تم التركيز الفكرة الرئيسية لهذا الحل على التركيز على تنظيف Corpus وإعدادها وبعد ذلك، استخدم حل خارج مربع (OpenNMT) مع طراز المحولات المنشور الافتراضي.لإعداد Corpus، استخدمنا مجموعة من الأدوات القياسية (كبرامج نصية موسى أو حزم بيثون)، ولكن أيضا، من بي ن البرامج النصية الثابتة الأخرى، ومزخرفة مخصصة لبثون مع القدرة على استبدال الأرقام للمتغيرات، حل مشكلة العلوي / السفلي للحالةالمفردات وتوفير تجزئة جيدة لمعظم علامات الترقيم.لقد بدأنا أيضا خطا لتنظيف Corpus بناء على تقدير الاحتمالات الإحصائية ل Corpus المستهدف المصدر، مع نتائج غير واضحة.أيضا، لقد قمت بتشغيل بعض الاختبارات مع تجزئة الكلمات المقاطعة، مرة أخرى بنتائج غير واضحة، لذلك في النهاية، بعد تكتيح جملة Word، استخدمنا جملة BPE الخاصة بوحدات الكلمات الفرعية لتغذية OpenNMT.
تجمع أبحاث معالجة اللغة الطبيعية (NLP) بين دراسة المبادئ العالمية، من خلال العلوم الأساسية، مع استهداف العلوم التطبيقية في حالات الاستخدام وإعدادات محددة. ومع ذلك، غالبا ما يفترض عملية التبادل بين NLP والتطبيقات الأساسية في كثير من الأحيان الظهور بشك ل طبيعي، مما أدى إلى العديد من الابتكارات التي تسير دون مبرر والعديد من الأسئلة المهمة تركت غير مستعصة. نحن نصف نموذج جديد من Translationations NLP، الذي يهدف إلى بنية وتيسير العمليات التي تبلغ بها بحث NLP الأساسي والتطبيقي بعضها البعض. وبالتالي يعرض NLP نموذجا للبحث الثالث، ركز على فهم التحديات التي تطرحها احتياجات التطبيق وكيف يمكن أن تدفع هذه التحديات الابتكار في تصميم العلوم والتكنولوجيا الأساسية. نظرا لأن العديد من التطورات المهمة في أبحاث NLP قد برزت من تقاطع المبادئ الأساسية مع احتياجات الطلب، وتقديم إطار مفاهيمي يحدد أصحاب المصلحة والأسئلة الرئيسية في البحوث المتعلقة بالجمالية. يوفر إطار عملنا خريطة طريق لتطوير Translationations NLP كجال بحث مخصص، وتحدد المبادئ التعليمية العامة لتسهيل التبادل بين البحوث الأساسية والتطبيقية.
هذه الدراسة هي أبحاث مستمرة تهدف إلى التحقيق في ميزات المعمير النحوية والأسلطة للنصوص في المجال البيئي باللغة الإنجليزية، وآثارها على الترجمة إلى الأوكرانية وكذلك ترجمة وحدات المصطلحات الرئيسية على أساس موازية متخصصة ومقارنة.
الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف .نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا