تعد Word Embeddings مكونا أساسيا لأنظمة معالجة اللغة الطبيعية الحديثة، مما يجعل القدرة على تقييمها بدقة مهمة حيوية. نحن تصف ديسكوتس، معيار للتقييم الجوهري للكلمة العربية الجدلية. يغطي ديسكليكس خمسة لهجات عربية مهمة: جزائري، مصري، لبناني، سوري، وتونسي. في جميع هذه الدلج، يوفر ديسكيكلكس ضفافا لستة علاقات نصنية ودلالية، وهي الذكور إلى الإناث، المفرد إلى المزدوج، المفرد إلى الجمع، متنافرا، مقارنة، واثير إلى الماضي. وهكذا تتكون ديسكليك من مجموعة من أزواج الكلمات التي تمثل كل من العلاقات الست في كل من اللهجات الخمسة. لإظهار فائدة Dilex، نستخدمها لتقييم مجموعة من شركات الكلمة العربية الحالية والجديدة التي طورناها. بما يتجاوز تقييم Embeddings Word، يدعم ديسكلكلكس الجهود المبذولة لدمج اللهجات في منهج اللغة العربية. يمكن ترجمته بسهولة إلى العربية الحديثة العربية والإنجليزية، والتي يمكن أن تكون مفيدة لتقييم ترجمة Word. سيكون لدينا المعيار وكود التقييم ونماذج تضمين الكلمة الجديدة متاحة للجمهور.
Word embeddings are a core component of modern natural language processing systems, making the ability to thoroughly evaluate them a vital task. We describe DiaLex, a benchmark for intrinsic evaluation of dialectal Arabic word embeddings. DiaLex covers five important Arabic dialects: Algerian, Egyptian, Lebanese, Syrian, and Tunisian. Across these dialects, DiaLex provides a testbank for six syntactic and semantic relations, namely male to female, singular to dual, singular to plural, antonym, comparative, and genitive to past tense. DiaLex thus consists of a collection of word pairs representing each of the six relations in each of the five dialects. To demonstrate the utility of DiaLex, we use it to evaluate a set of existing and new Arabic word embeddings that we developed. Beyond evaluation of word embeddings, DiaLex supports efforts to integrate dialects into the Arabic language curriculum. It can be easily translated into Modern Standard Arabic and English, which can be useful for evaluating word translation. Our benchmark, evaluation code, and new word embedding models will be publicly available.
References used
https://aclanthology.org/
High quality distributional models can capture lexical and semantic relations between words. Hence, researchers design various intrinsic tasks to test whether such relations are captured. However, most of the intrinsic tasks are designed for modern l
Sarcasm detection is of great importance in understanding people's true sentiments and opinions. Many online feedbacks, reviews, social media comments, etc. are sarcastic. Several researches have already been done in this field, but most researchers
Modern natural language understanding models depend on pretrained subword embeddings, but applications may need to reason about words that were never or rarely seen during pretraining. We show that examples that depend critically on a rarer word are
Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as
Recent studies have shown that deep neural network-based models are vulnerable to intentionally crafted adversarial examples, and various methods have been proposed to defend against adversarial word-substitution attacks for neural NLP models. Howeve