تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا


الملخص بالعربية

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل مع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث