ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج بناء على آلة التعلم الجديد للكشف عن خطأ ما بعد التعرف عبر الإنترنت

A Novel Machine Learning Based Approach for Post-OCR Error Detection

459   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركزت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل م ع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.
إن تقديم ملاحظات للطلاب ليس فقط في وضع علامة على إجاباتهم على النحو الصحيح أو غير صحيح، ولكن أيضا العثور على أخطاء في عملية التفكير التي دفعتهم إلى الإجابة غير الصحيحة.في هذه الورقة، نقدم تقنية لتعلم الآلات بسبب التسمية التوضيحية، وهي مهمة تحاول تحدي د الأخطاء وتوفير التعليقات مخصصة لمساعدة المتعلمين على تصحيح هذه الأخطاء.نقوم بذلك عن طريق تدريب شبكة تسلسل إلى تسلسل لتوليد هذه التعليقات بناء على خبراء المجال.لتقييم هذا النظام، نستكشف كيف يمكن استخدامه في مهمة اللغويات التي تدرس قانون جريم.نظهر أن نهجنا يولد ردود الفعل التي تتفوق على خط أساس على مجموعة من مقاييس NLP الآلية.بالإضافة إلى ذلك، نقوم بإجراء سلسلة من دراسات الحالة التي ندرس فيها مخرجات النظام الناجحة وغير الناجحة.
الاستعراضات عبر الإنترنت هي جانب أساسي للتسوق عبر الإنترنت لكل من العملاء وتجار التجزئة. ومع ذلك، فإن العديد من المراجعات الموجودة على الإنترنت تفتقر إلى الجودة أو المعلوماتية أو المساعدة. في كثير من الحالات، يقودون العملاء نحو آراء إيجابية أو سلبية دون تقديم أي تفاصيل ملموسة (على سبيل المثال، منتج ضعيف للغاية، لن أوصي به). في هذا العمل، نقترح طريقة غير خاضعة للرقابة رواية لتحديد المساعدة عند الاستفادة من توفر لجنة الاستعراضات. على وجه الخصوص، فإن طريقتنا تستغل ثلاث خصائص للمراجعات، VIZ.، الأهمية والكثافة العاطفية والخصوصية، نحو تحديد المساعدة. نحن نؤدي ثلاث تصنيفات (واحدة لكل ميزة أعلاه)، والتي يتم دمجها بعد ذلك للحصول على ترتيب مساعدة نهائي. لغرض تقييم طريقنا تجريبيا، نستخدم مراجعة أربع فئات منتجات من مراجعة أمازون. يوضح التقييم التجريبي فعالية طريقتنا مقارنة بناسي حديث حديث وحديثي.
تقدم هذه الورقة تقييما مقارنا لأربعة أنظمة ASR التجارية التي يتم تقييمها وفقا لجهود التحرير المطلوبة للوصول إلى "الجودة" القابلة للنشر ووفقا لعدد الأخطاء التي ينتجونها.لمهمة التوضيحية الخطأ، يتم اقتراح نموذج خطأ أخطاء خطأ في النسخ.تسعى هذه الدراسة أي ضا إلى فحص ما إذا كان هناك اختلاف في أداء هذه الأنظمة بين المتحدثين باللغة الإنجليزية الأصلية وغير الأصلية.تشير النتائج التجريبية إلى أنه من بين النظم الأربعة، تحصل Trint على أفضل الدرجات.ولوحظ أيضا أن معظم الأنظمة تؤدي بشكل ملحوظ بشكل ملحوظ مع مكبرات الصوت الأصلية وأن جميع الأنظمة أكثر عرضة لأخطاء الطلاقة.
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات مقرها Word من Word، نحقق الأداء الجيد على اللغة المستهدفة من خلال التدريب فقط على مجموعة بيانات المصدر.باستخدام نظامنا المنقول، نحن Bootstrap على بيانات اللغة المستهدفة غير المستهدفة، وتحسين أداء نهج النقل المتبادل القياسي.نحن نستخدم اللغة الإنجليزية كلغة موارد عالية والألمانية مثل اللغة المستهدفة التي تتوفر فقط كمية صغيرة من كورسا المشروح.تشير نتائجنا إلى أن التعلم عبر التحويلات الشاملة للتعلم مع نهجنا للاستفادة من البيانات الإضافية غير المسبقة هي وسيلة فعالة لتحقيق الأداء الجيد على لغات مستهدفة منخفضة الموارد دون الحاجة إلى أي شروح لغة الهدف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا