ترغب بنشر مسار تعليمي؟ اضغط هنا

تعظيم البيانات المستهدف للكشف عن الموقف

Target-Aware Data Augmentation for Stance Detection

416   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الهدف من الكشف عن الموقف هو تحديد ما إذا كان مؤلف النص مؤلفا مؤلا، محايد أو ضد هدف محدد. على الرغم من التقدم الجوهري في هذه المهمة، فإن إحدى التحديات المتبقية هي ندرة التعليقات التوضيحية. يستخدم تكبير البيانات بشكل شائع لمعالجة ندرة التوضيحية عن طريق توليد المزيد من عينات التدريب. ومع ذلك، فإن الجمل المعزولة التي يتم إنشاؤها عن طريق الأساليب الحالية هي إما أقل تنوعا أو غير متسقة مع علامة الهدف والموقف المحدد. في هذه الورقة، صياغة تكبير البيانات للكشف عن الموقف كقوة نمذجة لغة مملحة مشروطة وزيادة مجموعة البيانات من خلال التنبؤ بالكلمة الملثمين المكيفة على كل من سياقها والجملة المساعدة التي تحتوي على معلومات الهدف والسمية. علاوة على ذلك، نقترح طريقة أخرى بسيطة ولكنها فعالة تولد الجملة المستهدفة من خلال استبدال هدف ذكر مع الآخر. تظهر النتائج التجريبية أن أسالكتنا المقترحة تتفوق بشكل كبير على أساليب التكبير السابقة على 11 أهداف.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد الكشف عن الموقف على Twitter تحديا بشكل خاص بسبب الطول القصير لكل سقسقة، والتعايش المستمر لمصطلحات جديدة وعلاج التصنيف، وانحراف هيكل الجملة من النثر القياسي.تم عرض نماذج لغة ذات ضبطها باستخدام بيانات داخل المجال على نطاق واسع لتكون الحالة الجديدة للعديد من مهام NLP، بما في ذلك اكتشاف الموقف.في هذه الورقة، نقترح طريقة رواية متناصة قائمة بذاتها تعزز نموذج اللغة الملثم للكشف عن الموقف.بدلا من إخفاء الرمز المميز العشوائي، نقترح استخدام نسبة مرجحة للأحكام المرجحة لتحديد الكلمات ذات الموقف العالي ومن ثم نموذج آلية الاهتمام التي تركز على هذه الكلمات.نظهر أن نهجنا المقترح يتفوق على حالة الفنية من أجل الكشف عن البيانات حول بيانات تويتر حول الانتخابات الرئاسية الأمريكية 2020.
نظرا لأن أنظمة NLP تصبح أفضل في اكتشاف الآراء والمعتقدات من النص، فمن المهم التأكد من أن النماذج ليس فقط دقيقة ولكنها تصل أيضا إلى تنبؤاتها بطرق تتماشى مع المنطق البشري.في هذا العمل، نقدم طريقة لإنقاذ الترشيد يشبه الإنسان نموذجا للكشف عن الموقف باستخ دام التعليقات التوضيحية الجماعية على جزء صغير من بيانات التدريب.نظرا لأنه في بيئة نادرة بيانات، فإن نهجنا يمكن أن يحسن منطق مصنف أحدث --- لا سيما للمدخلات التي تحتوي على ظواهر صعبة مثل السخرية - - دون أي تكلفة في الأداء التنبئي.علاوة على ذلك، نوضح أن الأوزان الاهتمام تتفوق على طريقة رائدة في تقديم تفسيرات مخلصة لتنبؤات النماذج لدينا، مما يخدم كمصدر رخيص وموثوق بحسب حسابي لنموذجنا.
تعد التعميم المرتبطة مشكلة معروفة في الكشف عن الموقف (SD)، حيث تميل النظم إلى الأداء بشكل سيئ عند تعرضها للأهداف غير المرئية أثناء التدريب.بالنظر إلى أن شرح البيانات باهظ الثمن وتستغرق وقتا طويلا، فإن إيجاد طرق للاستفادة من البيانات غير المستقرة غير المسبقة يمكن أن تقدم فوائد كبيرة.في هذه الورقة، نطبق إطارا إشرافه ضعيفا لتعزيز التعميم الشامل من خلال البيانات المشروحة بتهمة التوحيد.نحن نركز على Twitter SD وإظهار تجريبيا من أن دمج البيانات الاصطناعية مفيدة للتعميم الشامل، مما يؤدي إلى تحسينات كبيرة في الأداء، مع المكاسب في درجات F1 تتراوح بين +3.4 إلى +5.1.
يشكل الاستخدام الواسع للإنترنت والنشر السريع للمعلومات التحدي المتمثل في تحديد صحة محتواه. اكتشف الكشف عن الموقف، الذي تعد مهمة التنبؤ بموقف نص فيما يتعلق بهدف محدد (سؤال المطالبة أو النقاش)، لتحديد صحة المعلومات في مهام مثل تصنيف الشائعات والكشف عن الأخبار المزيفة. في حين أن معظم الأعمال ومجموعات البيانات المتاحة للكشف عن الموقف يعالج النصوص القصيرة مقتطفات مستخرجة من الحوارات النصية، أو منصات وسائل التواصل الاجتماعي، أو عناوين الأخبار مع التركيز القوي على اللغة الإنجليزية، فهناك نقص في الموارد المستهدفة للنصوص الطويلة بلغات أخرى. مساهمتنا في هذه الورقة هي ذات شقين. أولا، نقدم مجموعة بيانات ألمانية من أسئلة النقاش والمقالات الإخبارية التي يتم تفاحها يدويا للكشف عن الموقف والعاطفة. ثانيا، نستفيد من مجموعة البيانات لمعالجة المهمة الخاضعة للإشراف على تصنيف موقف مقال إخباري فيما يتعلق بمسألة النقاش وتوفير نماذج خط الأساس كمرجع للعمل في المستقبل بشأن اكتشاف الموقف في المقالات الإخبارية الألمانية.
توضح هذه الورقة وتبحث في أنظمة مختلفة لمعالجة المهمة 6 من Semeval-2021: اكتشاف تقنيات الإقناع في النصوص والصور، والتعقب الفرعي 1. تهدف المهمة إلى بناء نموذج لتحديد التقنيات الطبية والنفسية (مثل التبسيط المفاجئ، الاسم-Cling، تشويه) في المحتوى النصي من ميمي يستخدم غالبا في حملة تضليل للتأثير على المستخدمين.توفر الورقة مقارنة واسعة النطاق بين مختلف أنظمة تعليم الآلات كحل للمهمة.نقوم بتوصيل المعالجة المسبقة للبيانات النصية لصالح المهمة وعدة طرق للتغلب على خلل الفصل.تظهر النتائج أن ضبط نموذج روبرتا يعطى أفضل النتائج مع نقاط F1-Micro من 0.51 على مجموعة التطوير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا