ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف الصعوبة التلقائية للجمل العربية

Automatic Difficulty Classification of Arabic Sentences

452   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم مصنف صاعقة صعبة عصرية عربية (MSA) الحديثة، والذي يتوقع صعوبة الجمل المتعلمين في اللغة باستخدام مستويات الكفاءة CEFR أو التصنيف الثنائي بصورة بسيطة أو معقدة.نحن نقارن استخدام تضمين الجملة من أنواع مختلفة (fastlext، mbert، xlm-r والعربية-bert)، وكذلك ميزات اللغة التقليدية مثل علامات نقاط البيع وأشجار التبعية وعشرات قابلية القراءة وقوائم التردد لمتعلمي اللغة.تم تحقيق أفضل النتائج لدينا باستخدام Brited Berted Berted Bert.دقة تصنيف CEFR الخاص بنا ثلاثي الاتجاه هو F-1 من 0.80 و 0.75 للتصنيف باللغة العربية-Bert و XLM-R على التوالي و 0.71 ارتباط سبيرمان للانحدار.يصل مصنف صعوبةنا الثنائية إلى F-1 0.94 و F-1 0.98 للقراءة الدلالية للقرن.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اخترنا في هذا المشروع العمل على تطوير نظام يقوم بتصنيف المستندات العربية حسب محتواها, يقوم هذه النظام بالتحليل اللفظي لكلمات المستند ثم إجراء عملية Stemming"رد الأفعال إلى أصلها" ثم تطبيق عملية إحصائية على المستند في مرحلة تدريب النظام ثم بالاعتماد على خوارزميات في الذكاء الصنعي يتم تصنيف المستند حسب محتواه ضمن عناقيد
نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على 338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفا ت التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.
قدمنا في هذا البحث دراسة مفصلة لطرق التنقيب في البيانات النصية و الإمكانيات المتوفرة في لغة الاستعلام الإجرائية PL/SQL التي تتعامل مع قواعد بيانات أوراكل الغرضية للقيام بذلك. و من ثم قمنا ببناء نموذج تنقيب يعمل على تصنيف وثائق النصوص العربية باست خدام خوارزمية SVM لفهرستها و من ثم تحويلها إلى جداول بيانات مدخلة في جداول الحالة لتصنيفها باستخدام خوارزمية Naïve Bayes و قدمنا الاستنتاجات و التوصيات بعد تقييم النتائج التي حصلنا عليها.
التشابه النّصي الدّلالي هو أساس عدد لا يحصى من التطبيقات ويلعب دوراً هاماً في مجالات متنوعة مثل استرجاع المعلومات ، والكشف عن السرقة الأدبية ، والترجمة الآلية ، وكشف الموضوع ، وتصنيف النص ، وتلخيص النص وغيرها. ويعتمد العثور على التشابه بين نصين أو فقرات أو جمل على قياس التشابه بين الكلمات بشكل مباشر أو غير مباشر. هناك نوعان معروفان للتشابه: معجمية(Lexicon) ودلالية.(Semantic) يتعامل الأوّل مع الكلمات على أنها مجموعة من الأحرف: الكلمات متشابهة معًا إذا كانت تتشارك في نفس الأحرف بنفس الترتيب(تمتلك نفس السلسلة من المحارف). يهدف النوع الثّاني إلى تحديد الدّرجة التي ترتبط بها كلمتين بشكل دلالي على سبيل المثال يمكن أن تكون المرادفات تمثل نفس الشيء أو يتم استخدامها في نفس السياق، ولذلك التّشابه الدّلالي بين الكلمات يجب أن يكون knowledge based وهذا يعني أنّ التشابه بين الكلمتين يعتمد على معلومات يمكن الحصول عليها من معاجم كبيرة.
نقدم المهمة الجديدة لحل النزاعات اسم النطاق (DNDR)، والذي يتنبأ بنتيجة عملية لحل النزاعات حول استحقاق قانوني لاسم النطاق.يحدد TheICann UDRP عملية تحكيم إلزامية للنزاع بين مالك العلامة التجارية وسجل اسم النطاق المتعلق باسم مجال كبير المستوى (GTLD) (GT LD) (واحد ينتهي في .com، .org، .NET، إلخ).يؤدي طبيعة المشكلة إلى مجموعة بيانات متحفة للغاية، والتي تنبع من القدرة على تسجيل اسم مجال مع سهولة شديدة، ومصروفات قليلة للغاية، ولا حاجة لإثبات استحقاقها.في هذه الورقة، نحن تصف ثيتاسك ومجموعة البيانات المرتبطة بها.ونحن نقدم أيضا نتائج مرجعية بناء على مجموعة من MOD-ELS، والتي تظهر أن خطوط الأساس البسيطة بشكل عام صعبة التغلب عليها بسبب توزيع البيانات المنحرفة، ولكن في حالة المستفتى المحددة التي قدمت استجابة، برت ضبط صقليقدم النموذج تحسينات كبيرة على نموذج فئة الأغلبية

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا