ترغب بنشر مسار تعليمي؟ اضغط هنا

هل هذه هي نهاية المعيار الذهبي؟مرجع مباشر - تقليل خطأ نحوي

Is this the end of the gold standard? A straightforward reference-less grammatical error correction metric

444   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من الصعب ترتيب وتقييم أداء أنظمة تصحيح الأخطاء النحوية (GEC)، حيث يمكن إعادة كتابة جملة بطرق صحيحة عديدة. تم استخدام عدد من مقاييس GEC لتقييم أنظمة GEC المقترحة؛ ومع ذلك، يعتمد كل نظام إما مقارنة بنصوص مرجعية واحدة أو أكثر --- في ما يعرف باسم المعيار الذهبي للمقاييس المستندة إلى المرجعة --- أو مجموعة بيانات منفصلة تفوحية لضبط المرجع المرجعية. النظم القائمة المرجعية لها علاقة منخفضة مع الحكم البشري، لا يمكن التقاط جميع الطرق التي يمكن بها تصحيح الجملة، وتتطلب عمل كبيرا لتطوير مجموعة بيانات اختبار. نقترح نظام تقييم GEC المرجعي الذي يرتبط بشدة بالحكم البشري، يحل القضايا المتعلقة باستخدام مرجع، ولا يحتاج إلى مجموعة بيانات مشروح أخرى للضبط. يعتمد النظام المقترح فقط على الأدوات المتاحة بشكل شائع. بالإضافة إلى ذلك، لا تعمل مقاييس مرجعية متاحة حاليا بشكل صحيح عندما يتكرر جزء من الجملة بدلا من المقاييس المستندة إلى المراجع. في نظامنا المقترح، نتطلع إلى معالجة القضايا المتأصلة في المقاييس المرجعية والمقاييس القائمة على المراجع.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G ecko + عبر الإنترنت كتطبيق ويب يقوم بتنفيذ خط أنابيب يجمع بين الطرزين.
على الرغم من أن تصحيح الخطأ النحوي (GEC) قد حقق أداء جيدا على النصوص التي كتبها المتعلمون من اللغة الإنجليزية كلغة ثانية، فإن الأداء على نطاقات كثافة الأخطاء المنخفضة حيث لا يزال من الممكن تحسين النصوص عن طريق مكبرات الصوت الإنجليزية من مستويات مختلف ة من الكفاءة.في هذه الورقة، نقترح نهجا للتعلم المتعاقيض لتشجيع نموذج GEC لتعيين احتمال أعلى من الجملة الصحيحة مع تقليل احتمالية جمل غير صحيحة أن النموذج يميل إلى توليدها، وذلك لتحسين دقة النموذج.تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير أداء نماذج GEC في مجالات كثافة خطأ منخفضة، عند تقييمه على مجموعة بيانات CWEB القياسية.
تناقش هذه الورقة نهجا قائما على التصنيف لتقييم الترجمة الآلي، بدلا من نهج قائم على الانحدار المشترك في مهمة مقاييس WMT.تعمل الترجمة الآلية الحديثة عادة بشكل جيد ولكن في بعض الأحيان تجعل الأخطاء الحرجة بسبب بعض خيارات كلمة خاطئة فقط.يركز نهجنا القائم على التصنيف على هذه الأخطاء باستخدام العديد من ملصقات نوع الخطأ، لتقييم ترجمة الآلات العملي في عصر الترجمة الآلية العصبية.لقد بذلنا شرحا إضافيا على مجموعات بيانات المقاييس 2015-2017 مع ملصقات الطلاقة والكفاية لتمييز أنواع مختلفة من أخطاء الترجمة من نقاط العرض النحوية والدلسة.نقدم معايير التقييم البشرية لدينا لتطوير Corpus وتجارب التقييم التلقائي باستخدام Corpus.سيتم إتاحة كوربوس التقييم البشري علنا عند النشر.
تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم فقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ دمت معظم الدراسات السابقة باستخدام BT نفس الهندسة المعمارية لكل من نماذج GEC و BT. ومع ذلك، فإن نماذج GEC لها اتجاهات تصحيح مختلفة اعتمادا على بنية نماذجها. وبالتالي، في هذه الدراسة، نقارن اتجاهات تصحيح نماذج GEC المدربة على البيانات الزائفة التي تم إنشاؤها بواسطة ثلاث نماذج BT مع بنية مختلفة، وهي المحول، CNN، و LSTM. تؤكد النتائج أن ميول التصحيح لكل نوع خطأ مختلفة لكل طراز BT. بالإضافة إلى ذلك، يمكننا التحقيق في ميول التصحيح عند استخدام مجموعة من البيانات الزائفة الناتجة عن نماذج BT مختلفة. نتيجة لذلك، نجد أن مجموعة من نماذج BT المختلفة تتحسن أو تحسن أداء كل نوع من نوع الخطأ مقارنة باستخدام نموذج BT واحد مع بذور مختلفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا