ترغب بنشر مسار تعليمي؟ اضغط هنا

الطابع الهرمي Tagger لتصحيح الأخطاء الإملائي النصي

Hierarchical Character Tagger for Short Text Spelling Error Correction

337   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية المستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم فقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.
تقليديا، تم حل مشاكل نقل مستوى الأحرف مع طرازات الحالة المحدودة المصممة لتشفير المعرفة الهيكلية واللغوية بالعملية الأساسية، في حين أن النهج الحديثة تعتمد على قوة ومرونة نماذج التسلسل إلى التسلسل مع الاهتمام.التركيز على سيناريو التعلم الأقل استكشاف غي ر مخالفات، قارن الفصولتين النموذجيين جنبا إلى جنب وتجد أنهم يميلون إلى جعل أنواع مختلفة من الأخطاء حتى عند تحقيق أداء مماثل.نقوم بتحليل توزيعات فئات الأخطاء المختلفة باستخدام مهامين غير مدفوعين كمثبتين: تحويل النص الرباني بشكل غير رسمي إلى البرنامج النصي الأصلي لغته (للروسية والعربية وكانيا) وترجم بين زوج من اللغات ذات الصلة عن كثب (الصربية والبوسني).أخيرا، نقوم بالتحقيق في كيفية دمج نماذج الحالة المحدودة والتسلسل في وقت فك التشفير يؤثر على الإخراج الكمي والنوعي.
تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير. أولا، نقوم بنمذت مجموعة بيانات النص القصيرة كشركة بيانية غير متجانسة هرمية تتكون من رسومات مكونة على مستوى Word والتي تقدم معلومات أكثر دلالة ونقصية.بعد ذلك، نتعلم ديناميكيا رسم بياني مستند قصير يسهل نشر الملصقات الفعالة بين النصوص القصيرة المشابهات.وبالتالي، فإن المقارنة مع الأساليب القائمة على GNN القائمة، والتألق يمكن أن يستغل أفضل التفاعلات بين العقد من نفس الأنواع والقبض على أوجه التشابه بين النصوص القصيرة.تظهر تجارب واسعة النطاق على مختلف مجموعات البيانات القصيرة القصيرة المعجمية أن التألق يتفوق باستمرار على الأساليب الحديثة، خاصة مع عدد أقل من الملصقات.
من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.
نماذج الترجمة الآلية العصبية حساسة للضوضاء في نصوص الإدخال، مثل كلمات أخطاء إملائية والإنشاءات غير الرسمية.تفشل تقنيات المتانة الحالية عموما عند مواجهة أنواع غير مرئية من الضوضاء وأدائها تتحلل من النصوص النظيفة.في هذه الورقة، نركز على ثلاثة أنواع من الضوضاء الواقعية التي يتم إنشاؤها عادة من قبل البشر وإدخال فكرة السياق البصري لتحسين متانة الترجمة للنصوص الصاخبة.بالإضافة إلى ذلك، نصف نظام تدريب تصحيح خطأ رواية يمكن استخدامه كمهمة مساعدة لزيادة تحسين متانة الترجمة.تظهر تجارب الترجمة الإنجليزية والفرنسية والإنجليزية - الألمانية أن كل من مكونات تصحيح الأخطاء المتعددة الوسائط والخروج تعمل على تحسين متانة النموذج للنصوص الصاخبة، بينما لا تزال تحتفظ بجودة الترجمة على النصوص النظيفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا