يهدف تصحيح الخطأ النحوي (GEC) إلى تصحيح أخطاء الكتابة ومساعدة المتعلمين في اللغة على تحسين مهاراتهم في الكتابة. ومع ذلك، تميل نماذج GEC الحالية إلى إنتاج تصحيحات زائفة أو تفشل في اكتشاف الكثير من الأخطاء. يعد نموذج تقدير الجودة ضروريا لضمان أن يحصل المتعلمون على نتائج GEC دقيقة وتجنب مضللة من الجمل المصححة بشكل سيء. يمكن أن تولد نماذج GEC المدربة جيدا العديد من الفرضيات عالية الجودة من خلال فك التشفير، مثل البحث الشعاع، والتي توفر أدلة GEC القيمة ويمكن استخدامها لتقييم جودة GEC. ومع ذلك، تهمش النماذج الحالية أدلة GEC المحتملة من فرضيات مختلفة. تقدم هذه الورقة شبكة التحقق العصبية (Vernet) لتقدير جودة GEC مع فرضيات متعددة. تحدد Vernet تفاعلات بين الفرضيات مع رسم بياني للمنطق وإجراء نوعين من آليات الاهتمام لنشر أدلة GEC للتحقق من جودة الفرضيات التي تم إنشاؤها. تظهر تجاربنا على أربع مجموعات بيانات GEC أن Vernet يحصل على أداء اكتشاف الأخطاء النحوية الحديثة، وتحقق أفضل نتائج تقدير الجودة، وتحسين أداء GEC بشكل كبير من خلال فرضيات إعادة النشر. تتوفر جميع رموز البيانات والمصادر في https://github.com/thunlp/vernet.
Grammatical Error Correction (GEC) aims to correct writing errors and help language learners improve their writing skills. However, existing GEC models tend to produce spurious corrections or fail to detect lots of errors. The quality estimation model is necessary to ensure learners get accurate GEC results and avoid misleading from poorly corrected sentences. Well-trained GEC models can generate several high-quality hypotheses through decoding, such as beam search, which provide valuable GEC evidence and can be used to evaluate GEC quality. However, existing models neglect the possible GEC evidence from different hypotheses. This paper presents the Neural Verification Network (VERNet) for GEC quality estimation with multiple hypotheses. VERNet establishes interactions among hypotheses with a reasoning graph and conducts two kinds of attention mechanisms to propagate GEC evidence to verify the quality of generated hypotheses. Our experiments on four GEC datasets show that VERNet achieves state-of-the-art grammatical error detection performance, achieves the best quality estimation results, and significantly improves GEC performance by reranking hypotheses. All data and source codes are available at https://github.com/thunlp/VERNet.
المراجع المستخدمة
https://aclanthology.org/
يتطلب تصحيح الأخطاء النحوية (GEC) مجموعة من أزواج الجملة الجملة / النحوية المسمى للتدريب، ولكن الحصول على مثل هذه التوضيحية يمكن أن تكون باهظة الثمن. في الآونة الأخيرة، أظهر إطار عمل استراحة IT-IT (BIFI) نتائج قوية على تعلم إصلاح برنامج مكسور دون أي
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ
تقدم هذه الورقة تقديم Nitt Kyoto لتقدير جودة WMT'21 (QE) مهمة الكشف عن المهمة المشتركة (المهمة 3).تعتمد نهجنا بشكل رئيسي على نموذج مكتبة الجودة التي استخدمنا 11 زوجا لغة، وثلاثة منهم على مستوى الجملة وثلاث مقاييس جودة الترجمة على مستوى الكلمات.بدءا م
في تقدير الجودة (QE)، يمكن التنبؤ بجودة الترجمة بالرجوع إلى الجملة المصدر وإخراج الترجمة الآلية (MT) دون الوصول إلى الجملة المرجعية. ومع ذلك، هناك مفارقة في أن بناء مجموعة بيانات لإنشاء نموذج QE يتطلب عمالة إنسانية غير تافهة ووقت، وقد يتطلب جهدا إضاف
توضح هذه الورقة أنظمة تقدير الجودة من Postech المقدمة إلى المهمة 2 من تقدير جودة WMT 2021 المهمة المشتركة: جهود ما بعد التحرير على مستوى الكلمة والجمل. نلاحظ أنه من الممكن تحسين استقرار أحدث نماذج تقدير الجودة التي لها تشفير واحد فقط استنادا إلى آلية