ترغب بنشر مسار تعليمي؟ اضغط هنا

الأمثلة الاصطناعية تعمل على تحسين التعميم الشامل: دراسة عن اكتشاف الموقف على Twitter Corpus.

Synthetic Examples Improve Cross-Target Generalization: A Study on Stance Detection on a Twitter corpus.

456   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد التعميم المرتبطة مشكلة معروفة في الكشف عن الموقف (SD)، حيث تميل النظم إلى الأداء بشكل سيئ عند تعرضها للأهداف غير المرئية أثناء التدريب.بالنظر إلى أن شرح البيانات باهظ الثمن وتستغرق وقتا طويلا، فإن إيجاد طرق للاستفادة من البيانات غير المستقرة غير المسبقة يمكن أن تقدم فوائد كبيرة.في هذه الورقة، نطبق إطارا إشرافه ضعيفا لتعزيز التعميم الشامل من خلال البيانات المشروحة بتهمة التوحيد.نحن نركز على Twitter SD وإظهار تجريبيا من أن دمج البيانات الاصطناعية مفيدة للتعميم الشامل، مما يؤدي إلى تحسينات كبيرة في الأداء، مع المكاسب في درجات F1 تتراوح بين +3.4 إلى +5.1.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهدف من الكشف عن الموقف هو تحديد ما إذا كان مؤلف النص مؤلفا مؤلا، محايد أو ضد هدف محدد. على الرغم من التقدم الجوهري في هذه المهمة، فإن إحدى التحديات المتبقية هي ندرة التعليقات التوضيحية. يستخدم تكبير البيانات بشكل شائع لمعالجة ندرة التوضيحية عن طريق توليد المزيد من عينات التدريب. ومع ذلك، فإن الجمل المعزولة التي يتم إنشاؤها عن طريق الأساليب الحالية هي إما أقل تنوعا أو غير متسقة مع علامة الهدف والموقف المحدد. في هذه الورقة، صياغة تكبير البيانات للكشف عن الموقف كقوة نمذجة لغة مملحة مشروطة وزيادة مجموعة البيانات من خلال التنبؤ بالكلمة الملثمين المكيفة على كل من سياقها والجملة المساعدة التي تحتوي على معلومات الهدف والسمية. علاوة على ذلك، نقترح طريقة أخرى بسيطة ولكنها فعالة تولد الجملة المستهدفة من خلال استبدال هدف ذكر مع الآخر. تظهر النتائج التجريبية أن أسالكتنا المقترحة تتفوق بشكل كبير على أساليب التكبير السابقة على 11 أهداف.
يحدد اكتشاف الموقف ما إذا كان مؤلف النص مؤهلا لصالح أو محايد هدف معين ويوفر رؤى قيمة في أحداث مهمة مثل تقنين الإجهاض. على الرغم من التقدم الكبير في هذه المهمة، فإن أحد التحديات المتبقية هو ندرة التعليقات التوضيحية. علاوة على ذلك، ركزت معظم الأعمال ال سابقة على تدريبا ثابتا على التسمية التي يتم فيها التخلص منها تشابه ذات معنى بين الفئات أثناء التدريب. لمعالجة هذه التحديات أولا، نقيم هدف متعدد المستهدف وإعدادات تدريب متعددة البيانات من خلال تدريب نموذج واحد على كل مجموعة بيانات ومجموعات من المجالات المختلفة، على التوالي. نظهر أن النماذج يمكن أن تتعلم المزيد من التمثيلات العالمية فيما يتعلق بالأهداف في هذه الإعدادات. ثانيا، يمكننا التحقيق في تقطير المعرفة في اكتشاف الموقف ومراقبة أن نقل المعرفة من نموذج المعلم إلى نموذج الطالب يمكن أن يكون مفيدا في إعدادات التدريب المقترحة. علاوة على ذلك، نقترح طريقة تقطير المعرفة التكيفية (AKD) تطبق تحجيم درجة الحرارة الخاصة بالمثيلات إلى المعلم والتنبؤات الطلابية. تشير النتائج إلى أن نموذج متعدد البيانات يعمل بشكل أفضل على جميع مجموعات البيانات ويمكن تحسينه من قبل AKD المقترح، مما يتفوق على أحدث حالة من الهامش الكبير. نحن نطلق علنا ​​كودنا.
كانت الانتخابات الأمريكية 2020، أكثر من أي وقت مضى، تتميز بحملات وسائل التواصل الاجتماعي والاتهامات المتبادلة. نحن نحقق في هذه الورقة إذا كان هذا يتجلى أيضا في الاتصالات عبر الإنترنت من مؤيدي المرشحين بايدن وترامب، من خلال نطق التواصل البغيض والهجومي . نقوم بصياغة مهمة توضيحية، نمتلك فيها مهام الكشف عن الكلام والموقف البغيضة / الهجومية، والاحليق على 3000 تغريدات من فترة الحملة، إذا أعربوا عن موقف معين تجاه المرشح. بجانب الطبقات المنشأة المتميزة من مواتية وضد، نقوم بإضافة مواقف مختلطة ومحايدة وأوضح أيضا إذا تم ذكر مرشح تعبير الرأي. علاوة على ذلك، نحن نلاحظ إذا كانت سقسقة مكتوبة بأسلوب مسيء. وهذا يتيح لنا أن نحلل إذا كان مؤيدو جو بايدن والحزب الديمقراطي يتواصلون بشكل مختلف عن أنصار دونالد ترامب والحزب الجمهوري. يوضح مصنف Bert Baseline أن الكشف إذا كان شخص ما مؤيد للمرشح يمكن إجراء جودة عالية ( (.79 F1 و .64 F1، على التوالي). لا يزال الكشف التلقائي لخطاب الكراهية / الهجومية تحديا (مع .53 F1). تتمتع كوربوس لدينا علنا ​​وتشكل مصدرا جديدا للنمذجة الحسابية للغة الهجومية قيد النظر في المواقف.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا لية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا