ترغب بنشر مسار تعليمي؟ اضغط هنا

elerrant: تصنيف نوع الأخطاء النحوية التلقائي لليونانية

ELERRANT: Automatic Grammatical Error Type Classification for Greek

465   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم الإصدار اليوناني من خاطئ أداة التوضيح التلقائية (براينت وآخرون، 2017)، والتي أطلقنا عليها اسم Elerrant.وظائف خاطئة كتصنيف نوع من نوع الخطأ القاعدة واستخدامه كأداة التقييم الرئيسية للأنظمة المشاركة في BEA-2019 (براينت وآخرون، 2019) مهمة مشتركة.هنا، نناقش الاختلافات النحوية والمورفولوجية بين الإنجليزية واليونانية وكيف أثرت هذه الاختلافات على تطوير السائل.نحن نقدم أيضا أول كوربوس اليونانية الأصلية (GNC) و Wikiedits Corpus اليونانية (GWE)، ومجموعات بيانات تقييم جديدة مع أخطاء من المتعلمين اليونانيين الأصليين وتحرير صفحات الحديث في ويكيبيديا على التوالي.تستخدم هذان البيانات اثنين لتقييم السائل.هذه الورقة هي جزء وحيد من صورة أكبر توضح محاولة حل مشكلة لغات الموارد المنخفضة في NLP، في حالتنا اليونانية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نؤدي الترجمة الآلة العصبية لشظايا الجملة من أجل إنشاء كميات كبيرة من البيانات التدريبية لتصحيح الخطأ النحوي الإنجليزي.تهدف أسلوبنا إلى محاكاة الأخطاء التي يرتكبها المتعلمين باللغة الثانية، وتنتج مجموعة واسعة من لغة الأسلوب غير الأصلية مقارنة بنمو ذج خط الأساس للحديث.نحن نفذ التقييم الكمي والنوعي.يتم عرض طريقتنا لتفوق خط الأساس على البيانات ذات نسبة عالية من الأخطاء.
على الرغم من أن تصحيح الخطأ النحوي (GEC) قد حقق أداء جيدا على النصوص التي كتبها المتعلمون من اللغة الإنجليزية كلغة ثانية، فإن الأداء على نطاقات كثافة الأخطاء المنخفضة حيث لا يزال من الممكن تحسين النصوص عن طريق مكبرات الصوت الإنجليزية من مستويات مختلف ة من الكفاءة.في هذه الورقة، نقترح نهجا للتعلم المتعاقيض لتشجيع نموذج GEC لتعيين احتمال أعلى من الجملة الصحيحة مع تقليل احتمالية جمل غير صحيحة أن النموذج يميل إلى توليدها، وذلك لتحسين دقة النموذج.تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير أداء نماذج GEC في مجالات كثافة خطأ منخفضة، عند تقييمه على مجموعة بيانات CWEB القياسية.
في هذه الورقة، نقدم طريقة جديدة لتدريب نموذج تحسين الكتابة تتكيف مع لغة الكاتب الأولى (L1) التي تتجاوز تصحيح الخطأ النحوي (GEC).بدون استخدام بيانات التدريب المشروح، فإننا نعتمد فقط على نماذج اللغة المدربة مسبقا بشكل جيد مع الترجمة المرجانية المتوازية المحاذاة مع الترجمة الآلية.نحن نقيم نموذجنا مع شركة كورسا للأوراق الأكاديمية المكتوبة باللغة الإنجليزية من قبل علماء L1 البرتغالية و L1 الإسبان وشركة مرجعية من الخبراء الإنجليزية الأكاديمية.نظرا لأن طرازنا قادر على معالجة الكتابة المحددة التي أثرت على L1 والأظاهرة اللغوية أكثر تعقيدا من الأساليب الحالية، مما يتفوق على ما يمكن أن يحققه نظام GEC للحكومة في هذا الصدد.الكود والبيانات لدينا مفتوحة للباحثين الآخرين.
في هذا العمل، ندرس مهمة تصنيف النصوص القانونية المكتوبة باللغة اليونانية. نقدم واجعلنا متاحا علنا ​​مجموعة بيانات جديدة تستند إلى التشريعات اليونانية، والتي تتكون من أكثر من 47 ألف مسؤول، صنفت موارد التشريعات اليونانية المصنفة. نقوم بتجربة هذه البيان ات وتقييم بطارية الأساليب المتقدمة والصفوفات المصنفة، تتراوح من تعلم الآلات التقليدية والطرق القائمة على RNN إلى الأساليب القائمة على المحولات الحديثة. نظرا لأن الهندسة المعمارية المتكررة مع Adminings Word الخاصة بالمجال توفر الأداء العام المحسن أثناء التنافس حتى إلى النماذج القائمة على المحولات. أخيرا، نظهر أن النماذج المتطورة متعددة اللغات والأنتغات التي تعتمد على المحولات التي تعمل على أعلى تصنيف من تصنيف الصفوصين، مما يجعلنا شكا من ضرورة تدريب نماذج تعلم نقل أحادية التحويل كقاعدة عامة. على حد علمنا، هذه هي المرة الأولى التي يتم فيها النظر في مهمة تصنيف النص القانوني اليوناني في مشروع بحث مفتوح، في حين أن اليونانية هي لغة مع موارد NLP محدودة للغاية بشكل عام.
يمكن أن تكشف نمط النص أن يكشف السمات الحساسة للمؤلف (E.G. العمر والسباق) للقارئ، والذي يمكن، بدوره، يؤدي إلى انتهاكات الخصوصية والتحيز في كل من القرارات البشرية والخضارات على أساس النص. على سبيل المثال، قد تكشف أسلوب الكتابة في تطبيقات الوظائف عن سما ت المرشح المحمية التي يمكن أن تؤدي إلى التحيز في اتخاذ القرارات، بغض النظر عما إذا كانت القرارات التوصية مجددا أو من قبل البشر. نقترح إطارا أساسيا يستند إلى VAE يهدف إلى توضيح الملامح الأسلوبية للنص الذي تم إنشاؤه بشريا من خلال نقل النمط، عن طريق إعادة كتابة النص نفسه تلقائيا. نقدي، يعمل إطار عملنا على فكرة النمط الذي تم توعيته بطريقة مرنة تمكن مفاهيمين متميزين من النمط المباشر: (1) الحد الأدنى من الفكرة التي تتقاطع بشكل فعال أن الأنماط المختلفة التي شوهدت في التدريب، و (2) مفهوم أقصى يسعى إلى التباطؤ بإضافة ميزات أسلوبية لجميع السمات الحساسة إلى النص، ساري المفعول، حوسبة نقابة الأساليب. يمكن استخدام إطار عملنا النمط الخاص بنا لأغراض متعددة، ومع ذلك، فإننا نوضح فعاليته في تحسين نزاهة المصب المصب. نقوم أيضا بإجراء دراسة شاملة عن تأثير تجمع الأنماط على الطلاقة والاتساق الدلالي، وإزالة السمة من النص، في اثنين وثلاث نقل نمط النطاق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا