ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، نستكشف آثار المتغيرات اللغوية، وأحجام البيانات، وأنواع المهام التي تم ضبطها بشكل جيد في نماذج اللغة العربية المدربة مسبقا.للقيام بذلك، نبني ثلاث نماذج لغوية مدربة مسبقا عبر ثلاثة متغيرات باللغة العربية: العربية القياسية العربية (MSA)، العربية، واللوجية العربية، بالإضافة إلى نموذج لغوي رابع مدرب مسبقا على مزيج من الثلاثةوبعدنحن ندرس أيضا أهمية حجم بيانات التدريب المسبق من خلال بناء نماذج إضافية مدربة مسبقا على مجموعة Scaled-Down من متغير MSA.قارنا نماذجنا المختلفة لبعضنا البعض، بالإضافة إلى ثمانية نماذج متاحة للجمهور من خلال ضبطها على خمس مهام NLP تمتد 12 مجموعة بيانات.تشير نتائجنا إلى أن القرب المتغير من بيانات التدريب المسبق لبيانات التوصيل الدقيق أكثر أهمية من حجم بيانات التدريب المسبق.نستمسى هذه البصيرة في تحديد نموذج اختيار نظام محسن للمهام التي تمت دراستها.
في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r وال عربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا