تصفيات مضادة تصف الأحداث التي لم تتم أو لا يمكنها إجراءها. نحن نعتبر مشكلة الكشف المتعرضين (CFD) في مراجعات المنتج. لهذا الغرض، فإننا نحيطر على مجموعة بيانات متعددة اللغات CFD من مراجعات منتجات الأمازون التي تغطي البيانات الإضافية المكتوب باللغات الإنجليزية والألمانية واليابانية. DataSet فريدة من نوعها لأنها تحتوي على مضادة بلغات متعددة، ويغطي مساحة تطبيق جديدة من مراجعات التجارة الإلكترونية، وتوفر شروح محترفة عالية الجودة. نقوم بتدريب نماذج CFD باستخدام طرق وأساليب تمثيل نصية مختلفة. نجد أن هذه النماذج قوية ضد التحيزات الاجتماعية التي تم تقديمها بسبب اختيار الجملة التي تعتمد على العبارات. علاوة على ذلك، فإن مجموعة بيانات CFD الخاصة بنا متوافقة مع مجموعات البيانات السابقة ويمكن دمجها لتعلم نماذج CFD دقيقة. تطبيق الترجمة الآلية على الأمثلة الإنجليزية المضادة لإنشاء بيانات متعددة اللغات يؤدي بشكل سيء، مما يدل على خصوصية لغة هذه المشكلة، والتي تم تجاهلها حتى الآن.
Counterfactual statements describe events that did not or cannot take place. We consider the problem of counterfactual detection (CFD) in product reviews. For this purpose, we annotate a multilingual CFD dataset from Amazon product reviews covering counterfactual statements written in English, German, and Japanese languages. The dataset is unique as it contains counterfactuals in multiple languages, covers a new application area of e-commerce reviews, and provides high quality professional annotations. We train CFD models using different text representation methods and classifiers. We find that these models are robust against the selectional biases introduced due to cue phrase-based sentence selection. Moreover, our CFD dataset is compatible with prior datasets and can be merged to learn accurate CFD models. Applying machine translation on English counterfactual examples to create multilingual data performs poorly, demonstrating the language-specificity of this problem, which has been ignored so far.
References used
https://aclanthology.org/
Exchanging arguments is an important part in communication, but we are often flooded with lots of arguments for different positions or are captured in filter bubbles. Tools which can present strong arguments relevant to oneself could help to reduce t
In Romanian language there are some resources for automatic text comprehension, but for Emotion Detection, not lexicon-based, there are none. To cover this gap, we extracted data from Twitter and created the first dataset containing tweets annotated
Multilingual and cross-lingual Semantic Role Labeling (SRL) have recently garnered increasing attention as multilingual text representation techniques have become more effective and widely available. While recent work has attained growing success, re
In this paper, we introduce a new English Twitter-based dataset for cyberbullying detection and online abuse. Comprising 62,587 tweets, this dataset was sourced from Twitter using specific query terms designed to retrieve tweets with high probabiliti
In this paper, we present the first multilingual FAQ dataset publicly available. We collected around 6M FAQ pairs from the web, in 21 different languages. Although this is significantly larger than existing FAQ retrieval datasets, it comes with its o