تصفيات مضادة تصف الأحداث التي لم تتم أو لا يمكنها إجراءها. نحن نعتبر مشكلة الكشف المتعرضين (CFD) في مراجعات المنتج. لهذا الغرض، فإننا نحيطر على مجموعة بيانات متعددة اللغات CFD من مراجعات منتجات الأمازون التي تغطي البيانات الإضافية المكتوب باللغات الإنجليزية والألمانية واليابانية. DataSet فريدة من نوعها لأنها تحتوي على مضادة بلغات متعددة، ويغطي مساحة تطبيق جديدة من مراجعات التجارة الإلكترونية، وتوفر شروح محترفة عالية الجودة. نقوم بتدريب نماذج CFD باستخدام طرق وأساليب تمثيل نصية مختلفة. نجد أن هذه النماذج قوية ضد التحيزات الاجتماعية التي تم تقديمها بسبب اختيار الجملة التي تعتمد على العبارات. علاوة على ذلك، فإن مجموعة بيانات CFD الخاصة بنا متوافقة مع مجموعات البيانات السابقة ويمكن دمجها لتعلم نماذج CFD دقيقة. تطبيق الترجمة الآلية على الأمثلة الإنجليزية المضادة لإنشاء بيانات متعددة اللغات يؤدي بشكل سيء، مما يدل على خصوصية لغة هذه المشكلة، والتي تم تجاهلها حتى الآن.
Counterfactual statements describe events that did not or cannot take place. We consider the problem of counterfactual detection (CFD) in product reviews. For this purpose, we annotate a multilingual CFD dataset from Amazon product reviews covering counterfactual statements written in English, German, and Japanese languages. The dataset is unique as it contains counterfactuals in multiple languages, covers a new application area of e-commerce reviews, and provides high quality professional annotations. We train CFD models using different text representation methods and classifiers. We find that these models are robust against the selectional biases introduced due to cue phrase-based sentence selection. Moreover, our CFD dataset is compatible with prior datasets and can be merged to learn accurate CFD models. Applying machine translation on English counterfactual examples to create multilingual data performs poorly, demonstrating the language-specificity of this problem, which has been ignored so far.
المراجع المستخدمة
https://aclanthology.org/
تعتبر عمليات تبادل الوسائط جزءا مهما في الاتصال، لكننا غالبا ما غمرت كثيرا مع الكثير من الحجج لمراكز مختلفة أو يتم التقاطها في فقاعات المرشح.الأدوات التي يمكن أن تقدم حجج قوية ذات صلة بالنفس يمكن أن تساعد في تقليل هذه المشاكل.لتكون قادرا على تقييم ال
في اللغة الرومانية، هناك بعض الموارد لفهم النص التلقائي، ولكن بالنسبة للكشف عن المشاعر، لا يوجد أساس معجم، لا يوجد شيء. لتغطية هذه الفجوة، استخراجت بيانات من Twitter وإنشاء بيانات DataSet الأولى التي تحتوي على تغريدات مشروحة مع خمسة أنواع من العواطف:
وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا
في هذه الورقة، نقدم أول بيانات مفاجئة متعددة اللغات متاحة للجمهور.جمعنا حوالي 6M أسئلة وأجوبة أزواج من الويب، في 21 لغة مختلفة.على الرغم من أن هذا أكبر بكثير من مجموعات بيانات استرجاع الأسئلة الشائعة الحالية، إلا أنها تأتي مع تحدياتها الخاصة: ازدواجي