ترغب بنشر مسار تعليمي؟ اضغط هنا

الجحيم ليس غضب؟تصحيح التحيز في NRC العاطفة المعجم

Hell Hath No Fury? Correcting Bias in the NRC Emotion Lexicon

170   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كانت هناك عدة محاولات لإنشاء معجم عاطفي دقيق وشامل باللغة الإنجليزية، والذي يحدد المحتوى العاطفي للكلمات. من بين العديد من الموارد الشائعة الاستخدام، تلقت معجم NRC Emption (Mohammad and Turney، 2013B) معظم الاهتمام بسبب توافرها وحجمها واختيارها لنموذج PLUTCHIVE التعبيري 8-Close Model. في هذه الورقة، نحدد عدد كبير من الإدخالات المقلقة في معجم NRC، حيث تكون الكلمات التي ينبغي أن تكون في معظم السياقات محايدة عاطفيا، دون أي تأثير (على سبيل المثال، مثليه، الحجر "، الجبل")، ترتبط بالملصقات العاطفية التي هي غير دقيقة، غير رسمية، تقشير، أو، في أحسن الأحوال، المعتمدة للغاية والسياق (على سبيل المثال، مثليه "المسمى بالاشمئزاز والحزن، والحجر" كغضب، أو جبل "كما يتيح). نحن نصف إجراء إجراء لتصحيح هذه المشكلات شبه تلقائيا في NRC، والذي يتضمن فئات POS Disbigiguating ومحاذاة إدخالات NRC مع طمامة العاطفة الأخرى لاستنتاج دقة الملصقات. نوضح عبر معيار تجريبي يتم تحسين جودة الموارد. نقوم بإصدار المورد المنقح وشمزنا لتمكين الباحثين الآخرين من إعادة إنتاج والبناء عند النتائج.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تلقت الأساليب القائمة على القاموس في تحليل المعنويات الاهتمام العلمي مؤخرا، وأكثر الأمثلة الشاملة التي يمكن العثور عليها باللغة الإنجليزية. ومع ذلك، فإن العديد من اللغات الأخرى تفتقر إلى قواميس القطبية، أو تلك الموجودة صغيرة الحجم كما في حالة SentiTu rknet، أول وفقط القطبية القاسم في التركية. وبالتالي، تهدف هذه الدراسة إلى تمديد محتوى SentiTurknet من خلال مقارنة الكلامين المتاحين في التركية، وهي Kenet و TR-Wordnet من Balkanet. تحقيقا لهذه الغاية، تم إنشاء قاموس الأسقفية التركية الحالية بالاعتماد على 76825 متلازمة مطابقة Kenet، حيث تم تفاح كل Synset مع ثلاث ملصقات قطبية، وهي إيجابية وسلبية ومحايدة. وفي الوقت نفسه، كشفت مقارنة Kenet و Tr-Wordnet of Balkanet عن نقاط الضعف الخاصة بهم مثل تكرار نفس الحواس، ونقص الدمج اللازم للعناصر التي تنتمي إلى نفس المكامنة ووجود إصدارات أضيق زائدة من التزامن، والتي تتم مناقشتها في ضوء إمكاناتهم لتحسين قواعد البيانات المعجمية الحالية التركية.
نقدم نموذجا للتنبؤ بمشاعر غرامة على طول الأبعاد المستمرة من التكافؤ والإثارة والهيمنة (VAD) مع وجود شرح عاطفي قاطع. يتم تدريب طرازنا عن طريق تقليل فقدان EMD (مسافة تحالف الأرض) بين توزيع النتيجة VAD المتوقعة وتوزيع العاطفة الفئوية التي تم فرزها على ط ول VAD، ويمكن أن تصنف في وقت واحد فئات العاطفة وتتنبؤ بعشرات VAD للحصول على عقوبة معينة. نحن نستخدم Roberta-Large Roberta المدربة مسبقا على ثلاثة كوربورا مختلفة مع ملصقات واضحة وتقييم على Emobank Corpus مع درجات VAD. نظهر أن نهجنا يصل إلى أداء قابلا للمقارنة مع وجود أحدث من المصنفات في تصنيف العاطفة الفئوية ويظهر ارتباطا إيجابيا كبيرا مع درجات فاد للحقيقة الأرضية. أيضا، يؤدي المزيد من التدريب مع الإشراف على تسميات VAD إلى تحسين الأداء خاصة عندما تكون مجموعة البيانات الصغيرة. نقدم أيضا أمثلة على تنبؤات كلمات العاطفة المناسبة التي ليست جزءا من التعليقات التوضيحية الأصلية.
يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمك ن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
يعد تعيين المعاني المعجمية إلى WordForms ميزة رئيسية للغات الطبيعية. في حين أن ضغوط الاستخدام قد تقوم بتعيين كلمات قصيرة معاني متكررة (قانون اختصار Zipf)، فإن الحاجة إلى مفردات إنتاجية ومفتوحة، وقيود محلية على تسلسل الرموز، وعوامل أخرى مختلفة جميعها تشكل طمئتي لغات العالم. على الرغم من أهميتها في تشكيل الهيكل المعجمي، لم يتم تحديد المساهمات النسبية لهذه العوامل بالكامل. أخذ رؤية نظرية ترميز من المعجم والاستفادة من نموذج إحصائي عام جديد، نحدد الحدود العليا لضغوط المعجم تحت قيود مختلفة. فحص كوربورا من 7 لغات متنوعة من 7، نستخدم تلك الحدود العليا لتحديد فائنة المعجم واستكشاف التكاليف النسبية للقيود الرئيسية على الرموز الطبيعية. نجد أن التورفولوجيا (التركيبية) والرسومات الحربية يمكن أن يمثل بما فيه الكفاية لمعظم تعقيد الرموز الطبيعية --- كما تقاس طول التعليمات البرمجية.
الاتساق المصطلحات هو شرط أساسي للترجمة الصناعية.تحتوي المصطلحات ذات الجودة اليدوية عالية الجودة على إدخالات في أشكالها الاسمية.دمج مثل هذه المصطلحات في الترجمة الآلية ليست مهمة تافهة.يجب أن يكون نظام MT قادرا على إزالة المهاطين على الجانب المصدر واخت ر WordForm الصحيح على الجانب المستهدف.في هذا العمل، نقترح طريقة بسيطة ولكنها فعالة ل Disambiguation Homograph وطريقة اختيار WordForm من خلال إدخال قيود معجمية متعددة الخيارات.نقترح أيضا مقياس قياسي لقياس الاتساق المصطحي للترجمة.نتائجنا لها تحسن كبير على سوتا الحالي من حيث الاتساق المصطاعي دون أي خسارة في النتيجة بلو.سيتم نشر جميع التعليمات البرمجية المستخدمة في هذا العمل كمصدر مفتوح.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا