نهج بناء على آلة التعلم الجديد للكشف عن خطأ ما بعد التعرف عبر الإنترنت


الملخص بالعربية

معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركزت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث