معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركزت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.
Post processing is the most conventional approach for correcting errors that are caused by Optical Character Recognition(OCR) systems. Two steps are usually taken to correct OCR errors: detection and corrections. For the first task, supervised machine learning methods have shown state-of-the-art performances. Previously proposed approaches have focused most prominently on combining lexical, contextual and statistical features for detecting errors. In this study, we report a novel system to error detection which is based merely on the n-gram counts of a candidate token. In addition to being simple and computationally less expensive, our proposed system beats previous systems reported in the ICDAR2019 competition on OCR-error detection with notable margins. We achieved state-of-the-art F1-scores for eight out of the ten involved European languages. The maximum improvement is for Spanish which improved from 0.69 to 0.90, and the minimum for Polish from 0.82 to 0.84.
المراجع المستخدمة
https://aclanthology.org/
مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل م
إن تقديم ملاحظات للطلاب ليس فقط في وضع علامة على إجاباتهم على النحو الصحيح أو غير صحيح، ولكن أيضا العثور على أخطاء في عملية التفكير التي دفعتهم إلى الإجابة غير الصحيحة.في هذه الورقة، نقدم تقنية لتعلم الآلات بسبب التسمية التوضيحية، وهي مهمة تحاول تحدي
الاستعراضات عبر الإنترنت هي جانب أساسي للتسوق عبر الإنترنت لكل من العملاء وتجار التجزئة. ومع ذلك، فإن العديد من المراجعات الموجودة على الإنترنت تفتقر إلى الجودة أو المعلوماتية أو المساعدة. في كثير من الحالات، يقودون العملاء نحو آراء إيجابية أو سلبية
تقدم هذه الورقة تقييما مقارنا لأربعة أنظمة ASR التجارية التي يتم تقييمها وفقا لجهود التحرير المطلوبة للوصول إلى "الجودة" القابلة للنشر ووفقا لعدد الأخطاء التي ينتجونها.لمهمة التوضيحية الخطأ، يتم اقتراح نموذج خطأ أخطاء خطأ في النسخ.تسعى هذه الدراسة أي
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات