ترغب بنشر مسار تعليمي؟ اضغط هنا

مقارنة تصحيح الخطأ النحوي باستخدام نماذج الترجمة الخلفي

Comparison of Grammatical Error Correction Using Back-Translation Models

661   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخدمت معظم الدراسات السابقة باستخدام BT نفس الهندسة المعمارية لكل من نماذج GEC و BT. ومع ذلك، فإن نماذج GEC لها اتجاهات تصحيح مختلفة اعتمادا على بنية نماذجها. وبالتالي، في هذه الدراسة، نقارن اتجاهات تصحيح نماذج GEC المدربة على البيانات الزائفة التي تم إنشاؤها بواسطة ثلاث نماذج BT مع بنية مختلفة، وهي المحول، CNN، و LSTM. تؤكد النتائج أن ميول التصحيح لكل نوع خطأ مختلفة لكل طراز BT. بالإضافة إلى ذلك، يمكننا التحقيق في ميول التصحيح عند استخدام مجموعة من البيانات الزائفة الناتجة عن نماذج BT مختلفة. نتيجة لذلك، نجد أن مجموعة من نماذج BT المختلفة تتحسن أو تحسن أداء كل نوع من نوع الخطأ مقارنة باستخدام نموذج BT واحد مع بذور مختلفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتطلب تصحيح الأخطاء النحوية (GEC) مجموعة من أزواج الجملة الجملة / النحوية المسمى للتدريب، ولكن الحصول على مثل هذه التوضيحية يمكن أن تكون باهظة الثمن. في الآونة الأخيرة، أظهر إطار عمل استراحة IT-IT (BIFI) نتائج قوية على تعلم إصلاح برنامج مكسور دون أي أمثلة معدنية، ولكن هذا يعتمد على ناقد مثالي (على سبيل المثال، مترجم) يعيد ما إذا كان المثال صحيحا أم لا، والتي غير موجودة لمهمة GEC. في هذا العمل، نظهر كيفية الاستفادة من نموذج اللغة المسبق (LM) في تحديد LM-RIDIC، الذي يحكم جملة على النحو الحكم إذا قام LM بتعيينه احتمال أعلى من اضطراباتها المحلية. نحن نطبق هذا LM-CRERTIC و BIFI جنبا إلى جنب مع مجموعة كبيرة من الجمل غير المسبقة إلى Bootstrap أزواج حقيقية غير رسمية / نحوية لتدريب مصحح. نقيم نهجنا على مجموعات بيانات GEC على مجالات متعددة (CONLL-2014، BEA-2019، GMEG-WIKI و GMEG-Yahoo) وإظهار أنه يتفوق على الأساليب الموجودة في كل من الإعداد غير المقترح (+7.7 F0.5) والإعداد الإشرافي (+0.5 F0.5).
يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل ا لمتعلمون على نتائج GEC دقيقة وتجنب مضللة من الجمل المصححة بشكل سيء. يمكن أن تولد نماذج GEC المدربة جيدا العديد من الفرضيات عالية الجودة من خلال فك التشفير، مثل البحث الشعاع، والتي توفر أدلة GEC القيمة ويمكن استخدامها لتقييم جودة GEC. ومع ذلك، تهمش النماذج الحالية أدلة GEC المحتملة من فرضيات مختلفة. تقدم هذه الورقة شبكة التحقق العصبية (Vernet) لتقدير جودة GEC مع فرضيات متعددة. تحدد Vernet تفاعلات بين الفرضيات مع رسم بياني للمنطق وإجراء نوعين من آليات الاهتمام لنشر أدلة GEC للتحقق من جودة الفرضيات التي تم إنشاؤها. تظهر تجاربنا على أربع مجموعات بيانات GEC أن Vernet يحصل على أداء اكتشاف الأخطاء النحوية الحديثة، وتحقق أفضل نتائج تقدير الجودة، وتحسين أداء GEC بشكل كبير من خلال فرضيات إعادة النشر. تتوفر جميع رموز البيانات والمصادر في https://github.com/thunlp/vernet.
في هذه الورقة، نقدم طريقة جديدة لتدريب نموذج تحسين الكتابة تتكيف مع لغة الكاتب الأولى (L1) التي تتجاوز تصحيح الخطأ النحوي (GEC).بدون استخدام بيانات التدريب المشروح، فإننا نعتمد فقط على نماذج اللغة المدربة مسبقا بشكل جيد مع الترجمة المرجانية المتوازية المحاذاة مع الترجمة الآلية.نحن نقيم نموذجنا مع شركة كورسا للأوراق الأكاديمية المكتوبة باللغة الإنجليزية من قبل علماء L1 البرتغالية و L1 الإسبان وشركة مرجعية من الخبراء الإنجليزية الأكاديمية.نظرا لأن طرازنا قادر على معالجة الكتابة المحددة التي أثرت على L1 والأظاهرة اللغوية أكثر تعقيدا من الأساليب الحالية، مما يتفوق على ما يمكن أن يحققه نظام GEC للحكومة في هذا الصدد.الكود والبيانات لدينا مفتوحة للباحثين الآخرين.
Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G ecko + عبر الإنترنت كتطبيق ويب يقوم بتنفيذ خط أنابيب يجمع بين الطرزين.
على الرغم من أن تصحيح الخطأ النحوي (GEC) قد حقق أداء جيدا على النصوص التي كتبها المتعلمون من اللغة الإنجليزية كلغة ثانية، فإن الأداء على نطاقات كثافة الأخطاء المنخفضة حيث لا يزال من الممكن تحسين النصوص عن طريق مكبرات الصوت الإنجليزية من مستويات مختلف ة من الكفاءة.في هذه الورقة، نقترح نهجا للتعلم المتعاقيض لتشجيع نموذج GEC لتعيين احتمال أعلى من الجملة الصحيحة مع تقليل احتمالية جمل غير صحيحة أن النموذج يميل إلى توليدها، وذلك لتحسين دقة النموذج.تظهر النتائج التجريبية أن نهجنا يحسن بشكل كبير أداء نماذج GEC في مجالات كثافة خطأ منخفضة، عند تقييمه على مجموعة بيانات CWEB القياسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا