ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج محاذاة غير مرغقة لتصحيح خطأ النص الصيني

An Alignment-Agnostic Model for Chinese Text Error Correction

349   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف المفقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال مستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.
يتطلب تصحيح الأخطاء النحوية (GEC) مجموعة من أزواج الجملة الجملة / النحوية المسمى للتدريب، ولكن الحصول على مثل هذه التوضيحية يمكن أن تكون باهظة الثمن. في الآونة الأخيرة، أظهر إطار عمل استراحة IT-IT (BIFI) نتائج قوية على تعلم إصلاح برنامج مكسور دون أي أمثلة معدنية، ولكن هذا يعتمد على ناقد مثالي (على سبيل المثال، مترجم) يعيد ما إذا كان المثال صحيحا أم لا، والتي غير موجودة لمهمة GEC. في هذا العمل، نظهر كيفية الاستفادة من نموذج اللغة المسبق (LM) في تحديد LM-RIDIC، الذي يحكم جملة على النحو الحكم إذا قام LM بتعيينه احتمال أعلى من اضطراباتها المحلية. نحن نطبق هذا LM-CRERTIC و BIFI جنبا إلى جنب مع مجموعة كبيرة من الجمل غير المسبقة إلى Bootstrap أزواج حقيقية غير رسمية / نحوية لتدريب مصحح. نقيم نهجنا على مجموعات بيانات GEC على مجالات متعددة (CONLL-2014، BEA-2019، GMEG-WIKI و GMEG-Yahoo) وإظهار أنه يتفوق على الأساليب الموجودة في كل من الإعداد غير المقترح (+7.7 F0.5) والإعداد الإشرافي (+0.5 F0.5).
تحقق الإملاء الصيني (CSC) هو اكتشاف أخطاء الإملاء الصيني وتصحيحها.تستخدم العديد من النماذج من الارتباك المحدد مسبقا لتعلم رسم خرائط بين الأحرف الصحيحة وأهمياتها المماثلة المماثلة البصرية أو مماثلة ولكن قد يكون الرسم الخرائط خارج المجال.تحقيقا لهذه ال غاية، نقترح Spellbert، وهو نموذج مسبق مع ميزات إضافية قائمة على الرسم البياني ومستقلة على مجموعة الارتباك.لالتقاط الأنماطين الخاطئة بشكل صريح، فإننا نوظف شبكة عصبية رسم بيانية لإدخال معلومات جذرية وبرينيا كميزات بصرية وعصرية.لتحسين الصدر هذه الميزات مع تمثيلات الأحرف، ونحن نضع نموذج لغة ملثم على حد سواء مهام التدريب مسبقا.من خلال هذا التدريب المسبق الأغنياء المظلات، يمكن أن تظهر Spellbert مع نصف حجم Bert فقط أداء تنافسي وجعل أحدث نتيجة في مجموعة بيانات OCR حيث لا يتم تغطية معظم الأخطاء من قبل مجموعة الارتباك الموجودة.
تبسيط النص هو حقل متزايد مع العديد من التطبيقات المفيدة المحتملة.تتطلب خوارزميات تبسيط النص التدريب عموما الكثير من البيانات المشروحة، ومع ذلك لا توجد العديد من الشركات المناسبة لهذه المهمة.نقترح طريقة جديدة غير مخالفة لمحاذاة النص بناء على تضمين Doc 2vec وخوارزمية محاذاة جديدة، قادرة على محاذاة النصوص على مستويات مختلفة.يوضح التقييم الأولي نتائج واعدة للنهج الجديد.استخدمنا النهج المطور الذي تم تطويره حديثا لإنشاء كوربلا متوازيا أحادية طيور أحادية جديدة تتألف من أعمال الفلاسفة الحديث الإنجليزي وإصداراتهم المبسطة المقابلة.
Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G ecko + عبر الإنترنت كتطبيق ويب يقوم بتنفيذ خط أنابيب يجمع بين الطرزين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا