ترغب بنشر مسار تعليمي؟ اضغط هنا

التقاط خطاب سامة سائبة عبر الجماعة الجماعية

Capturing Covertly Toxic Speech via Crowdsourcing

434   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن ندرس مهمة وضع العلامات السرية أو السمية المحجوبة في المحادثات عبر الإنترنت.أبرز البحث المسبق الصعوبة في إنشاء نماذج اللغة التي تعترف بالسمية الدقيقة مثل الأصغرات.تؤكد تحقيقاتنا بشكل أكبر على صعوبة تحليل هذه الملصقات بشكل موثوق من الفئات الجماعية عبر الجماعة الجماعية.نقدم مجموعة بيانات أولية، وسمية coverttox، والتي تهدف إلى تحديد وتصنيف هذه التعليقات من قالب Rater المكرر.أخيرا، نحن نغلق نموذج Bert Transk-Domain Bert لتصنيف تعليقات هجومية سائبة ومقارنة مع خطوط الأساس الحالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام الجماعي لمشاكل اللغة العملية تحديا مفتوحا. ومع ذلك، هناك العديد من المبادئ والممارسات التي أثبتت فعاليتها في توليد بيانات عالية الجودة ومتنوعة. يعرض هذا البرنامج التعليمي الباحثين NLP إلى هذه الأساليب والمبادئ الجماعية لجمع البيانات هذه من خلال مناقشة مفصلة لمجموعة متنوعة من دراسات الحالة. يركز اختيار دراسات الحالة على الإعدادات الصعبة حيث يطلب من الجمهور أن يكتب النص الأصلي أو أداء العمل غير المقيد نسبيا. من خلال دراسات الحالة هذه، نناقش في عمليات تفصيلية مصممة بعناية لتحقيق البيانات ذات الخصائص المحددة، على سبيل المثال تتطلب الاستدلال المنطقي أو التفكير الأساسي أو فهم المحادثة. تركز كل دراسة حالة على تفاصيل بروتوكول جمع البيانات التابعة للبيانات التي غالبا ما تتلقى اهتماما محدودا في العروض البحثية البحثية، على سبيل المثال في المؤتمرات، ولكنها حاسمة لنجاح البحث.
توضح هذه الورقة أن تجميع التوقعات الجماعية التجميعية تستفيد من نمذجة المبررات المكتوبة المقدمة من المتنبئين.تشير تجاربنا إلى أن الأساسيات الأهمية والتصويت المرجحة تنافسية، وأن المبررات المكتوبة مفيدة لاستدعاء سؤال طوال حياته إلا في الربع الأخير.نقوم أيضا بإجراء تحليل الأخطاء ذرف الضوء في الخصائص التي تجعل مبرر غير موثوق بها.
في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
تستخدم منصات الشبكة الاجتماعية عموما لمشاركة المحتوى الإيجابي والبناء والرائعة. ومع ذلك، في الآونة الأخيرة، غالبا ما يتعرض الناس على المحتوى المرفوض مثل التهديد وهجمات الهوية أو خطاب الكراهية أو الإهانات أو النصوص الفاحشة أو الملاحظات الهجومية أو الب لطجة. يركز العمل الحالي على كشف الكلام السام على التصنيف الثنائي أو على التمييز الخطاب السام بين مجموعة صغيرة من الفئات. تصف هذه الورقة النظام الذي اقترحه فريق Cisco for Semeval-2021 المهمة 5: الكشف عن الأمور السامة، أول مهمة مشتركة تركز على اكتشاف المواقف في النص الذي يعزى إلى سميته، باللغة الإنجليزية. نحن نقترب من هذه المشكلة في المقام الأول بطريقتين: نهج علامات التسلسل ونهج تحليل التبعية. في نهج علامات التسلسل لدينا، نعلم كل رمز رمزي في جملة تحت مخطط وضع علامات معينة. أثبتت بنية الأداء الخاصة بنا في هذا النهج أيضا أنها أفضل بنية أداء لدينا بشكل عام مع درجة F1 من 0.6922، وبالتالي وضع 7 لنا في مرحلة التقييم النهائية المتصدرين. نستكشف أيضا نهج تحليل التبعية حيث استخرفنا يمتد من عقوبة الإدخال تحت إشراف حدود المستهدفة المستهدفة وترتيب تمديدنا باستخدام نموذج بيافين. أخيرا، نقدم أيضا تحليلا مفصلا لنتائجنا وأداء النموذج في ورقنا.
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا