ترغب بنشر مسار تعليمي؟ اضغط هنا

تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا

Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts

362   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل مع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركز ت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.
في هذه الورقة، نضع أنفسنا في سيناريو التصنيف الذي لا يمكن الوصول إليه الطبقات المستهدفة ونوع البيانات أثناء التدريب.نستخدم نهج التعلم التلوي لتحديد ما إذا كانت المعلومات التي تم تدريبها على التلوي من بيانات الشبكة الاجتماعية المشتركة مع ملصقات عاطفة من الرعازة يمكن أن تحقق أداء تنافسي على الرسائل المسمى بفئات العاطفة المختلفة.نستفيد القليل من اللقطة التعلم لتتناسب مع سيناريو التصنيف والنظر في التعلم التعلم القائم على التعلم المتري عن طريق إعداد الشبكات النموذجية النموذجية مع تشفير محول، مدربة في أزياء بيئية.يثبت هذا النهج فعالا لالتقاط المعلومات المعوضة من مجموعة من الوسم العاطفي المصدر للتنبؤ علامات عاطفية غير مرئية مسبقا.على الرغم من أن تحويل نوع البيانات يؤدي إلى انخفاض الأداء المتوقع، فإن نهجنا التعلم التلوي يحقق نتائج لائقة عند مقارنته بالآخر تحت الإشراف بالكامل.
هدفت هذه الدراسة السريرية إلى تقييم فعالية المسواك بالمقارنة مع فرشاة الأسنان فـي إزالـة اللويحة السنية و أثر ذلك في اللثة. جرت الدراسة على مجموعتين متساويتين بمجموع ٥٦ طالباً من كلية طب الأسنان فـي جامعـة دمشق، كما قسمت الدراسة إلى مرحلتين : في ا لمرحلة الأولى و بعد تراكم لويحه تجريبي، قام المتطوعون بتنظيف أسنانهم بالفرشاة أو المسواك كل حسب مجموعته لمدة خمس دقـائق ثـم أخذت القياسات السريرية مباشرة. بعد ذلك و في المرحلة الثانية قام المتطوعون و لمـدة ثلاثـة أسابيع بتنظيف أسنانهم لمدة خمسة دقائق مرتين يومياً فقط بالفرشاة و المعجون أو المسواك. كان في المرحلة الأولى الالتهاب اللثوي متعادلاً تقريباً بين كلا المجموعتين و أعطت قيم مشعر Turesky لتقييم اللويحة على السطوح الدهليزية و اللســانية قيمـاً أعلـى عنـد مسـتخدمي المسـواك و لكن الفارق إحصائياً لم يكن ذا دلالة significant Not ، فـي حـين كانـت نظافـة المسافات ما بين السنية عند مستخدمي الفرشاة سواء دهليزياً أم لسـانياً ذات فـارق جـوهري (01,0< P) . و عموما لم تسـتطع الفرشـاة و لا المسواك تأمين نظافة مطلقة للسـطوح السـنية بمدة تنظيف خمس دقائق، و برغم ذلك اسـتطاع في الفحـص الأول ٥,٢٨ % مـن مسـتخدمي الفرشاة تحقيق نظافة جيدة للمسـافات ما بين السـنية الدهليزيـة فقط (HYG ≤ ٨٠ %) في حين لم يصل أي من مستخدمي المسواك إلى هذا المستوى، و سـواء بالفرشاة أو المسواك كـان تنظيف السطوح الدهليزية أفضل من اللسـانية (05.0< P) . كانت فـي المرحلـة الثانيـة قـيم اللويحـة و التهاب اللثــة دائماً أسوأ عند مستخدمي المسواك و لكن هذا الفارق لم يكن جوهرياً. النتيجة أن المسواك لا يزيل اللويحة بشـكل كامل و لكن توضع اللويحة على السـطوح الدهليزية و اللسانية كان مماثلاً تقريباً لما هو عند مستخدمي الفرشاة، و تبقـى فرشـاة الأسـنان متفوقـة بوضوح في تنظيف المسافات بين السنية.
يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت درب على نص حديث من مصادر الويب، مما يجعل مناسبا له بمهمة تاريخية مشكوك فيها.لتخفيف ندرة الموارد العربية السعودية العربية، نقترح نموذج فرقة ديناميكية باستخدام العديد من المتعلمين.يتم تحقيق الجانب الديناميكي من خلال الاستفادة من التنبؤ والميزات على نتائج خوارزمية NER التي حددت التي أجريت بشكل أفضل على مهمة محددة في الوقت الفعلي.نقوم بتقييم نهجنا ضد أحدث أساليب النيران العربية والثابتة من أساليب الفرقة الثابتة عبر مهمة تاريخية تاريخية جديدة التي أنشأناها.تظهر نتائجنا أن نهجنا يحسن على أحدث ويودر من 0.8 درجة مئوية بشأن هذه المهمة الصعبة.
من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا