تصنيف الصعوبة التلقائية للجمل العربية


الملخص بالعربية

في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r والعربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث