الملخص على الرغم من التقدم المحرز في السنوات الأخيرة في معالجة تحديات فهم اللغة الطبيعية (NLU)، فإن غالبية هذا التقدم لا يزال يتركز على اللغات الغنية بالموارد مثل اللغة الإنجليزية. يركز هذا العمل على اللغة الفارسية، واحدة من اللغات المنطوقة على نطاق واسع في العالم، ومع ذلك، هناك عدد قليل من مجموعات بيانات NLU متاحة لهذه اللغة. إن توفر مجموعات بيانات التقييم عالية الجودة ضرورة لتقييم موثوق للتقدم المحرز في مهام ومجال NLU المختلفة. نقدم Parsinlu، أول معيار باللغة الفارسية التي تتضمن مجموعة من مهام فهم اللغة --- قراءة الفهم والتتبع النصي وما إلى ذلك. يتم جمع مجموعات البيانات هذه في العديد من الطرق، وغالبا ما تنطوي على التعليقات التوضيحية اليدوية من قبل المتكلمين الأصليين. ينتج عن هذا أكثر من 14.5 ألف حالة جديدة عبر 6 مهام NLU مميزة. بالإضافة إلى ذلك، نقدم النتائج الأولى من طرازات اللغة أحادية الأحادية ومتعددة اللغات في هذه المعيار ومقارنتها بالأداء البشري، والذي يوفر رؤى قيمة في قدرتنا على معالجة التحديات الفارسية في اللغة الفارسية. نأمل أن يعزز Parsinlu مزيدا من البحث والتقدم في فهم اللغة الفارسية
Abstract Despite the progress made in recent years in addressing natural language understanding (NLU) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on Persian language, one of the widely spoken languages in the world, and yet there are few NLU datasets available for this language. The availability of high-quality evaluation datasets is a necessity for reliable assessment of the progress on different NLU tasks and domains. We introduce ParsiNLU, the first benchmark in Persian language that includes a range of language understanding tasks---reading comprehension, textual entailment, and so on. These datasets are collected in a multitude of ways, often involving manual annotations by native speakers. This results in over 14.5k new instances across 6 distinct NLU tasks. Additionally, we present the first results on state-of-the-art monolingual and multilingual pre-trained language models on this benchmark and compare them with human performance, which provides valuable insights into our ability to tackle natural language understanding challenges in Persian. We hope ParsiNLU fosters further research and advances in Persian language understanding.1
المراجع المستخدمة
https://aclanthology.org/
يتناول البحث تعليم اللغةِ العربيةِ للناطقين بغيرها كلغةٍ ثانيةٍ، و يتحدث عن
طبيعةِ الدارسين و جنسياتِهم المختلفة، ما أهدافهم و أغراضهم من دراسةِ العربيةِ، لأخذها بالحسبان عند بناءِ المنهاجِ الخاصِ بهم و تصميمه الذي يتم على محورين:
لغوي و وظيفي، و ي
عادة ما تحقق الأساليب الخاضعة للإشراف أفضل أداء في مشكلة غموض معنى الكلمة.ومع ذلك، فإن عدم توفر إحساس كبير مشروح بالنسبة للعديد من اللغات منخفضة الموارد يجعل هذه الأساليب غير قابل للتطبيق لها في الممارسة العملية.في هذه الورقة، نقوم بتخفيف هذه المشكلة
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع
في هذه الورقة نناقش العديد من التحديات المتعلقة بتطوير لعبة ثلاثية الأبعاد، تهدف هدفها إلى زيادة الوعي بالتبريد الإلكتروني أثناء جمع التوضيح اللغوي في اللغة الهجومية.من المفترض أن تستخدم اللعبة من قبل المراهقين، وبالتالي رفع عدد من القضايا التي يجب م