ترغب بنشر مسار تعليمي؟ اضغط هنا

أحمر: مجموعة بيانات جديدة للكشف عن العاطفة الرومانية من تغريدات

RED: A Novel Dataset for Romanian Emotion Detection from Tweets

468   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في اللغة الرومانية، هناك بعض الموارد لفهم النص التلقائي، ولكن بالنسبة للكشف عن المشاعر، لا يوجد أساس معجم، لا يوجد شيء. لتغطية هذه الفجوة، استخراجت بيانات من Twitter وإنشاء بيانات DataSet الأولى التي تحتوي على تغريدات مشروحة مع خمسة أنواع من العواطف: الفرح والخوف والحزن والغضب والمحايد، بقصد استخدام مهام التعدين وتحليل الرأي. في هذه المقالة، نقدم بعض ميزات مجموعة بياناتنا الجديدة، وخلق معيارا لتحقيق أول نموذج لتعلم الآلات الإشراف للكشف عن المشاعر التلقائية في النصوص القصيرة الرومانية. نحقق في أداء أربع نماذج تعلم الآلة الكلاسيكية: بايس ساذجة متعددة الأثر، الانحدار اللوجستي، تصنيف ناقلات الدعم وتصنيف ناقلات الدعم الخطي. نحن نحقق أيضا في المزيد من الأساليب الحديثة مثل FastText، والتي تستخدم معلومات الكلمات الفرعية. أخيرا، نحن نغلق برت الرومانية لتصنيف النص وإظهار تجاربنا أن النموذج القائم على بيرت لديه أفضل أداء لمهمة الكشف عن العاطفة من التغريدات الرومانية. الكلمات المفتاحية: الكشف عن العاطفة، تويتر، الرومانية، التعلم الآلي الإشراف

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كشف العاطفة مهمة مهمة يمكن تطبيقها على بيانات وسائل التواصل الاجتماعي لاكتشاف المعرفة الجديدة.في حين أن استخدام طرق التعلم العميق لهذه المهمة كان سائدا، فهي نماذج من الصندوق الأسود، مما يجعل قراراتها بجد لتفسير مشغل بشري.لذلك، في هذه الورقة، نقترح نه جا باستخدام Kevent Kearbors المرجح (KNN)، وهو نموذج تعليمي بسيط وسهل تنفيذي وشرحه.هذه الصفات يمكن أن تساعد في تعزيز موثوقية النتائج وتحليل الأخطاء التوجيه.على وجه الخصوص، نطبق نموذج KNN المرجح بمهمة الكشف عن العاطفة المشتركة في تغريدات Semeval-2018.يتم تمثيل التغريدات باستخدام أساليب مختلفة لتضمين نصية وعشرات المفردات المعجمية العاطفة، ويتم التصنيف من قبل مجموعة من نماذج KNN المرجحة.تتمتع أفضل أساليبنا بنتائج تنافسية مع حلول حديثة وفتح مسارا بديلا واعدا لأساليب الشبكة العصبية.
نقدم نموذجا للتنبؤ بمشاعر غرامة على طول الأبعاد المستمرة من التكافؤ والإثارة والهيمنة (VAD) مع وجود شرح عاطفي قاطع. يتم تدريب طرازنا عن طريق تقليل فقدان EMD (مسافة تحالف الأرض) بين توزيع النتيجة VAD المتوقعة وتوزيع العاطفة الفئوية التي تم فرزها على ط ول VAD، ويمكن أن تصنف في وقت واحد فئات العاطفة وتتنبؤ بعشرات VAD للحصول على عقوبة معينة. نحن نستخدم Roberta-Large Roberta المدربة مسبقا على ثلاثة كوربورا مختلفة مع ملصقات واضحة وتقييم على Emobank Corpus مع درجات VAD. نظهر أن نهجنا يصل إلى أداء قابلا للمقارنة مع وجود أحدث من المصنفات في تصنيف العاطفة الفئوية ويظهر ارتباطا إيجابيا كبيرا مع درجات فاد للحقيقة الأرضية. أيضا، يؤدي المزيد من التدريب مع الإشراف على تسميات VAD إلى تحسين الأداء خاصة عندما تكون مجموعة البيانات الصغيرة. نقدم أيضا أمثلة على تنبؤات كلمات العاطفة المناسبة التي ليست جزءا من التعليقات التوضيحية الأصلية.
مع استمرار العالم في محاربة جائحة CovID-19، فإنه يقاتل في وقت واحد من نقص الدم "- وهو طوفان من تضليل وانتشار نظريات المؤامرة المؤدية إلى تهديدات صحية وشعبة المجتمع. لمكافحة هذا المعكرية، هناك حاجة ملحة لمجموعات البيانات القياسية التي يمكن أن تساعد ال باحثين على تطوير وتقييم النماذج الموجهة نحو الكشف التلقائي عن التضليل. في حين أن هناك جهودا متزايدة لإنشاء مجموعات بيانات قياسية كافية ومفتوحة للمصدر للغة الإنجليزية، فإن الموارد القابلة للمقارنة غير متاحة تقريبا بالنسبة للألمانية، مما يترك البحث في اللغة الألمانية متخلفة بشكل كبير. في هذه الورقة، نقدم DataSet المعيار الجديد Fang-Covid يتكون من 28،056 مواد إخبارية ألمانية حقيقية و 13،186 مرتبطة بمعائق CovID-19 وكذلك بيانات عن انتشارها على Twitter. علاوة على ذلك، نقترح نموذجا قابل للتفسير القائم على السياق والاجتماعي للكشف عن الأخبار المزيفة، ومقارنة أدائه إلى النماذج والأداء الأسود الميزة لتقييم الأهمية النسبية للميزات القابلة للتفسير البشرية في التمييز بين الأخبار المزيفة من الأخبار الأصلية وبعد
تهدف مهمة الكشف عن الموقف إلى اكتشاف موقف سقسقة أو نص للحصول على هدف. يمكن تسمية هذه الأهداف كيانات أو جمل حرة (مطالبات). على الرغم من أن المهمة تنطوي على سبب سقسقة فيما يتعلق بهدف، إلا أننا نجد أنه من الممكن تحقيق دقة عالية على العديد من مجموعات بيا نات الكشف عن موقف تويتر المتوفرة علنا ​​دون النظر إلى الجملة المستهدفة. على وجه التحديد، حقق نموذج تصنيف Tweet بسيط أداء على مستوى بشري على مجموعة بيانات WT - WT وأكثر من دقة ثالثة في مختلف مجموعات البيانات الأخرى. نحن نبحث في وجود تحيزات في مثل هذه البيانات للعثور على الارتباطات الزائفة المحتملة لعلاقات موقد المعنويات والاختيار المعجمي المرتبط بفئة الموقف. علاوة على ذلك، نقترح مجموعة بيانات كبيرة جديدة خالية من هذه التحيزات وإظهار ملصفها على أنظمة الكشف عن الموقف الموجودة. تظهر نتائجنا التجريبية نطاقا كبيرا للبحث عن مهمة الكشف عن الموقف ويقترح العديد من الاعتبارات لإنشاء مجموعات بيانات الكشف عن الموقف في المستقبل.
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5 000 وظيفة مدونات دقيقة مشروح من عدد كبير من المحن المعلقين المتطوعين.إن اتفاقية المعلن والتمييز التلقائي الأولي الناتج نواجهها تتماشى مع جهود التوضيحية السابقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا