تحديد الهياكل في تغريدات عربية محددة باستخدام تجزئة Farasa


الملخص بالعربية

تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المهمة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث