ترغب بنشر مسار تعليمي؟ اضغط هنا

من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا