الملخص على الرغم من التقدم المحرز في السنوات الأخيرة في معالجة تحديات فهم اللغة الطبيعية (NLU)، فإن غالبية هذا التقدم لا يزال يتركز على اللغات الغنية بالموارد مثل اللغة الإنجليزية. يركز هذا العمل على اللغة الفارسية، واحدة من اللغات المنطوقة على نطاق واسع في العالم، ومع ذلك، هناك عدد قليل من مجموعات بيانات NLU متاحة لهذه اللغة. إن توفر مجموعات بيانات التقييم عالية الجودة ضرورة لتقييم موثوق للتقدم المحرز في مهام ومجال NLU المختلفة. نقدم Parsinlu، أول معيار باللغة الفارسية التي تتضمن مجموعة من مهام فهم اللغة --- قراءة الفهم والتتبع النصي وما إلى ذلك. يتم جمع مجموعات البيانات هذه في العديد من الطرق، وغالبا ما تنطوي على التعليقات التوضيحية اليدوية من قبل المتكلمين الأصليين. ينتج عن هذا أكثر من 14.5 ألف حالة جديدة عبر 6 مهام NLU مميزة. بالإضافة إلى ذلك، نقدم النتائج الأولى من طرازات اللغة أحادية الأحادية ومتعددة اللغات في هذه المعيار ومقارنتها بالأداء البشري، والذي يوفر رؤى قيمة في قدرتنا على معالجة التحديات الفارسية في اللغة الفارسية. نأمل أن يعزز Parsinlu مزيدا من البحث والتقدم في فهم اللغة الفارسية
Abstract Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of language understanding tasks---reading comprehension, textual entailment, and so on. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5k new instances across 6 distinct NLU tasks. Additionally, we present the first results on state-of-the-art monolingual and multilingual pre-trained language models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.1
References used
https://aclanthology.org/
This research deals with teaching Arabic as a second language. It
tackles the different characteristics and nationalities of learners in
addition to their objectives in relation to learning Arabic. This is taken
into consideration when preparing t
Supervised approaches usually achieve the best performance in the Word Sense Disambiguation problem. However, the unavailability of large sense annotated corpora for many low-resource languages make these approaches inapplicable for them in practice.
In this paper, we propose a definition and taxonomy of various types of non-standard textual content -- generally referred to as noise'' -- in Natural Language Processing (NLP). While data pre-processing is undoubtedly important in NLP, especially wh
This paper presents a production Semi-Supervised Learning (SSL) pipeline based on the student-teacher framework, which leverages millions of unlabeled examples to improve Natural Language Understanding (NLU) tasks. We investigate two questions relate
In this paper we discuss several challenges related to the development of a 3D game, whose goal is to raise awareness on cyberbullying while collecting linguistic annotation on offensive language. The game is meant to be used by teenagers, thus raisi