ترغب بنشر مسار تعليمي؟ اضغط هنا

أتمنى لو كنت أحببت هذا واحد، لكنني لم أفعل - مجموعة بيانات متعددة اللغات للكشف عن الوسائل في مراجعة المنتج

I Wish I Would Have Loved This One, But I Didn't -- A Multilingual Dataset for Counterfactual Detection in Product Review

120   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصفيات مضادة تصف الأحداث التي لم تتم أو لا يمكنها إجراءها. نحن نعتبر مشكلة الكشف المتعرضين (CFD) في مراجعات المنتج. لهذا الغرض، فإننا نحيطر على مجموعة بيانات متعددة اللغات CFD من مراجعات منتجات الأمازون التي تغطي البيانات الإضافية المكتوب باللغات الإنجليزية والألمانية واليابانية. DataSet فريدة من نوعها لأنها تحتوي على مضادة بلغات متعددة، ويغطي مساحة تطبيق جديدة من مراجعات التجارة الإلكترونية، وتوفر شروح محترفة عالية الجودة. نقوم بتدريب نماذج CFD باستخدام طرق وأساليب تمثيل نصية مختلفة. نجد أن هذه النماذج قوية ضد التحيزات الاجتماعية التي تم تقديمها بسبب اختيار الجملة التي تعتمد على العبارات. علاوة على ذلك، فإن مجموعة بيانات CFD الخاصة بنا متوافقة مع مجموعات البيانات السابقة ويمكن دمجها لتعلم نماذج CFD دقيقة. تطبيق الترجمة الآلية على الأمثلة الإنجليزية المضادة لإنشاء بيانات متعددة اللغات يؤدي بشكل سيء، مما يدل على خصوصية لغة هذه المشكلة، والتي تم تجاهلها حتى الآن.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتبر عمليات تبادل الوسائط جزءا مهما في الاتصال، لكننا غالبا ما غمرت كثيرا مع الكثير من الحجج لمراكز مختلفة أو يتم التقاطها في فقاعات المرشح.الأدوات التي يمكن أن تقدم حجج قوية ذات صلة بالنفس يمكن أن تساعد في تقليل هذه المشاكل.لتكون قادرا على تقييم ال خوارزميات التي يمكن أن تتنبأ بمدى مقنع الحجة، قمنا بجمع مجموعة بيانات بها أكثر من 900 حجج ومواقف شخصية تضم 600 فرد، والتي نقدمها في هذه الورقة.بناء على هذه البيانات، نقترح ثلاثة مهام توصية، التي نقدم النتائج التي نقدمها خطين أساسيين من مصنف أغلبية بسيطة وخوارزمية جارتين أكثر تعقيدا.تشير نتائجنا إلى أنه لا يزال من الممكن تطوير خوارزميات أفضل، وندعنا المجتمع لتحسين نتائجنا.
في اللغة الرومانية، هناك بعض الموارد لفهم النص التلقائي، ولكن بالنسبة للكشف عن المشاعر، لا يوجد أساس معجم، لا يوجد شيء. لتغطية هذه الفجوة، استخراجت بيانات من Twitter وإنشاء بيانات DataSet الأولى التي تحتوي على تغريدات مشروحة مع خمسة أنواع من العواطف: الفرح والخوف والحزن والغضب والمحايد، بقصد استخدام مهام التعدين وتحليل الرأي. في هذه المقالة، نقدم بعض ميزات مجموعة بياناتنا الجديدة، وخلق معيارا لتحقيق أول نموذج لتعلم الآلات الإشراف للكشف عن المشاعر التلقائية في النصوص القصيرة الرومانية. نحقق في أداء أربع نماذج تعلم الآلة الكلاسيكية: بايس ساذجة متعددة الأثر، الانحدار اللوجستي، تصنيف ناقلات الدعم وتصنيف ناقلات الدعم الخطي. نحن نحقق أيضا في المزيد من الأساليب الحديثة مثل FastText، والتي تستخدم معلومات الكلمات الفرعية. أخيرا، نحن نغلق برت الرومانية لتصنيف النص وإظهار تجاربنا أن النموذج القائم على بيرت لديه أفضل أداء لمهمة الكشف عن العاطفة من التغريدات الرومانية. الكلمات المفتاحية: الكشف عن العاطفة، تويتر، الرومانية، التعلم الآلي الإشراف
وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد ة اللغات لا تزال غير قابلة للمقارنة بسهولة عبر اللغات، مما يجعل من الصعب فهم حيث نقف. على سبيل المثال، في Conll-2009، تتأثر المقارنات القياسية لمعيار SRL متعدد اللغات، وهي مقارنات لغة إلى لغوية بحقيقة أن كل لغة لها مجموعة بيانات خاصة بها والتي تختلف عن الآخرين في الحجم والمجالات ومجموعات من التسميات والإرشادات التوضيحية. في هذه الورقة، نتعلم هذه المشكلة واقترح United-SRL، معيار جديد لعطلة SRL متعددة اللغات والتبادلة والاعتماد على التبعية. يوفر United-SRL شرحا متوازيا من الخبراء باستخدام مخزون هيكل الوسائد المشترك، مما يسمح بالمقارنات المباشرة عبر اللغات والدراسات المشجعة على النقل عبر اللغات في SRL. نقوم بإصدار United-SRL V1.0 في https://github.com/sapienzanlp/united-srl.
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا لية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.
في هذه الورقة، نقدم أول بيانات مفاجئة متعددة اللغات متاحة للجمهور.جمعنا حوالي 6M أسئلة وأجوبة أزواج من الويب، في 21 لغة مختلفة.على الرغم من أن هذا أكبر بكثير من مجموعات بيانات استرجاع الأسئلة الشائعة الحالية، إلا أنها تأتي مع تحدياتها الخاصة: ازدواجي ة المحتوى والتوزيع غير المتكافئ للمواضيع.نعتمد إعداد مماثل لاسترجاع مرور كثيف (DPR) واختبار العديد من التشفير BI على هذه البيانات.تكشف تجاربنا أن نموذج متعدد اللغات يعتمد على XLM-Roberta يحقق أفضل النتائج، باستثناء اللغة الإنجليزية.يبدو أن لغات الموارد السفلية تتعلم من بعضها البعض ككلمة متعددة اللغات يحقق MRR أعلى من تلك الخاصة باللغة.يكشف تحليلنا النوعي عن تنشيط النموذج على تغييرات كلمة بسيطة.نحن نطلق علنا علنا DataSet، نموذج، وتدريب البرنامج النصي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا