تقدم هذه الورقة محاولة في اكتشاف تعبيرات متعددة الكلمات (MWES) في اللغة الفارسية.وهي تركز على استخراج MWES التي تحتوي على لام من مجموعة معينة: الكلمات المستعارة في الفارسية وما يعادلها التي اقترحتها أكاديمية اللغة الفارسية والأدب.من أجل اكتشاف مثل هذه MWES، يتم استخدام أربع تدابير جمعية (AMS) وتقييمها.أخيرا، يتم تحليل قائمة MWES المستخرجة، ويتم عرض مقارنة بين التعبيرات ذات الكلمات المستعارة وما يعادلها.لمعرفةنا، هذه هي المرة الأولى التي يتم فيها توفير مثل هذا التحليل للغة الفارسية.
This paper presents an attempt at multiword expressions (MWEs) discovery in the Persian language. It focuses on extracting MWEs containing lemmas of a particular group: loanwords in Persian and their equivalents proposed by the Academy of Persian Language and Literature. In order to discover such MWEs, four association measures (AMs) are used and evaluated. Finally, the list of extracted MWEs is analyzed, and a comparison between expressions with loanwords and equivalents is presented. To our knowledge, this is the first time such analysis was provided for the Persian language.
المراجع المستخدمة
https://aclanthology.org/
تم استخدام تحلل الطابع الصيني كميزة لتعزيز نماذج الترجمة الآلية (MT)، والجمع بين المتطرفين في طرازات حرف مستوى الكلمة.حققت العمل الحديث في الأيديوجراف أو تضمين مستوى السكتة الدماغية.ومع ذلك، تبقى الأسئلة حول مستويات التحلل المختلفة من تمثيلات الأحرف
عادة ما تحقق الأساليب الخاضعة للإشراف أفضل أداء في مشكلة غموض معنى الكلمة.ومع ذلك، فإن عدم توفر إحساس كبير مشروح بالنسبة للعديد من اللغات منخفضة الموارد يجعل هذه الأساليب غير قابل للتطبيق لها في الممارسة العملية.في هذه الورقة، نقوم بتخفيف هذه المشكلة
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا
تصف هذه الورقة أنظمة المقدمة إلى المهمة SE-MEVAL 2021 1: تنبؤ التعقيد المعجمي (LCP).نقارن نماذج الانحدار الخطية وغير الخطية المدربة للعمل في كلا المسارين للمهمة.نظرا لأن كلا النظامين قادرين على التعميم بشكل أفضل عند توفير معلومات حول تعقيدات كلمة واح