تهدف مهمة الكشف عن الموقف إلى اكتشاف موقف سقسقة أو نص للحصول على هدف. يمكن تسمية هذه الأهداف كيانات أو جمل حرة (مطالبات). على الرغم من أن المهمة تنطوي على سبب سقسقة فيما يتعلق بهدف، إلا أننا نجد أنه من الممكن تحقيق دقة عالية على العديد من مجموعات بيانات الكشف عن موقف تويتر المتوفرة علنا دون النظر إلى الجملة المستهدفة. على وجه التحديد، حقق نموذج تصنيف Tweet بسيط أداء على مستوى بشري على مجموعة بيانات WT - WT وأكثر من دقة ثالثة في مختلف مجموعات البيانات الأخرى. نحن نبحث في وجود تحيزات في مثل هذه البيانات للعثور على الارتباطات الزائفة المحتملة لعلاقات موقد المعنويات والاختيار المعجمي المرتبط بفئة الموقف. علاوة على ذلك، نقترح مجموعة بيانات كبيرة جديدة خالية من هذه التحيزات وإظهار ملصفها على أنظمة الكشف عن الموقف الموجودة. تظهر نتائجنا التجريبية نطاقا كبيرا للبحث عن مهمة الكشف عن الموقف ويقترح العديد من الاعتبارات لإنشاء مجموعات بيانات الكشف عن الموقف في المستقبل.
The stance detection task aims at detecting the stance of a tweet or a text for a target. These targets can be named entities or free-form sentences (claims). Though the task involves reasoning of the tweet with respect to a target, we find that it is possible to achieve high accuracy on several publicly available Twitter stance detection datasets without looking at the target sentence. Specifically, a simple tweet classification model achieved human-level performance on the WT--WT dataset and more than two-third accuracy on various other datasets. We investigate the existence of biases in such datasets to find the potential spurious correlations of sentiment-stance relations and lexical choice associated with the stance category. Furthermore, we propose a new large dataset free of such biases and demonstrate its aptness on the existing stance detection systems. Our empirical findings show much scope for research on the stance detection task and proposes several considerations for creating future stance detection datasets.
المراجع المستخدمة
https://aclanthology.org/
في اللغة الرومانية، هناك بعض الموارد لفهم النص التلقائي، ولكن بالنسبة للكشف عن المشاعر، لا يوجد أساس معجم، لا يوجد شيء. لتغطية هذه الفجوة، استخراجت بيانات من Twitter وإنشاء بيانات DataSet الأولى التي تحتوي على تغريدات مشروحة مع خمسة أنواع من العواطف:
نقدم Dreamdrug، مجموعة بيانات التعيد الجماعي للكشف عن ذكرات الأدوية في قوائم البند الناتجة عن المستخدم الصاخبة من أسواق Darknet.تحتوي DataSet لدينا على ما يقرب من 15000 كيانات مخطوية مشروح يدويا في أكثر من 3500 من قوائم البند كشط من منصة Darknet Mark
في هذه الورقة، نقدم نيريل، مجموعة بيانات روسية للتعرف على الكيان المسمى واستخراج العلاقة.نيريل أكبر بكثير من مجموعات البيانات الروسية القائمة: حتى الآن تحتوي على 56 كيلو كيانات المسماة المشروحة وعلاقات مشروحة 39 ألفا.الفرق المهم له من مجموعات البيانا
الهدف من الكشف عن الموقف هو تحديد ما إذا كان مؤلف النص مؤلفا مؤلا، محايد أو ضد هدف محدد. على الرغم من التقدم الجوهري في هذه المهمة، فإن إحدى التحديات المتبقية هي ندرة التعليقات التوضيحية. يستخدم تكبير البيانات بشكل شائع لمعالجة ندرة التوضيحية عن طريق
أصبحت الإيذاء عبر الإنترنت واللغة المسيئة في وسائل التواصل الاجتماعي مشاكل واسعة النطاق في العصر الرقمي اليوم.في هذه الورقة، نحن نساهم في مجموعة بيانات قائمة على إعادة استخدامها، تتكون من 68،159 إهانات و 51،102 تحية مستهدفة للأفراد بدلا من استهداف مج