بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا

Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts

422 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

cleaning dirty books previously scanned texts processing for previously تنظيف الكتب القذرة الصور الممسوحة ضوئيا سابقا معالجة سابقا صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل مع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

511 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركز ت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.

الكشف عن الأخطاء learning based approach approach for post-ocr النهج القائم على التعلم نهج لما بعد التعرف الضابط صناعة حمض الفوسفور

التعلم التعريف لتصنيف مصدر البيانات غير المرئي سابقا في الفئة العاطفية غير المرئية سابقا

607 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الورقة، نضع أنفسنا في سيناريو التصنيف الذي لا يمكن الوصول إليه الطبقات المستهدفة ونوع البيانات أثناء التدريب.نستخدم نهج التعلم التلوي لتحديد ما إذا كانت المعلومات التي تم تدريبها على التلوي من بيانات الشبكة الاجتماعية المشتركة مع ملصقات عاطفة من الرعازة يمكن أن تحقق أداء تنافسي على الرسائل المسمى بفئات العاطفة المختلفة.نستفيد القليل من اللقطة التعلم لتتناسب مع سيناريو التصنيف والنظر في التعلم التعلم القائم على التعلم المتري عن طريق إعداد الشبكات النموذجية النموذجية مع تشفير محول، مدربة في أزياء بيئية.يثبت هذا النهج فعالا لالتقاط المعلومات المعوضة من مجموعة من الوسم العاطفي المصدر للتنبؤ علامات عاطفية غير مرئية مسبقا.على الرغم من أن تحويل نوع البيانات يؤدي إلى انخفاض الأداء المتوقع، فإن نهجنا التعلم التلوي يحقق نتائج لائقة عند مقارنته بالآخر تحت الإشراف بالكامل.

classifying previously unseen previously unseen emotional classifying previously تصنيف غير مرئي سابقا العاطفي غير المرئي سابقا التصنيف سابقا صناعة حمض الفوسفور المزيد..

مقارنة ما بين فعالية تنظيف السواك و فرشاة الأسنان

1548 - جامعة دمشق 1999 ورقة بحثية

هدفت هذه الدراسة السريرية إلى تقييم فعالية المسواك بالمقارنة مع فرشاة الأسنان فـي إزالـة اللويحة السنية و أثر ذلك في اللثة. جرت الدراسة على مجموعتين متساويتين بمجموع ٥٦ طالباً من كلية طب الأسنان فـي جامعـة دمشق، كما قسمت الدراسة إلى مرحلتين : في ا لمرحلة الأولى و بعد تراكم لويحه تجريبي، قام المتطوعون بتنظيف أسنانهم بالفرشاة أو المسواك كل حسب مجموعته لمدة خمس دقـائق ثـم أخذت القياسات السريرية مباشرة. بعد ذلك و في المرحلة الثانية قام المتطوعون و لمـدة ثلاثـة أسابيع بتنظيف أسنانهم لمدة خمسة دقائق مرتين يومياً فقط بالفرشاة و المعجون أو المسواك. كان في المرحلة الأولى الالتهاب اللثوي متعادلاً تقريباً بين كلا المجموعتين و أعطت قيم مشعر Turesky لتقييم اللويحة على السطوح الدهليزية و اللســانية قيمـاً أعلـى عنـد مسـتخدمي المسـواك و لكن الفارق إحصائياً لم يكن ذا دلالة significant Not ، فـي حـين كانـت نظافـة المسافات ما بين السنية عند مستخدمي الفرشاة سواء دهليزياً أم لسـانياً ذات فـارق جـوهري (01,0< P) . و عموما لم تسـتطع الفرشـاة و لا المسواك تأمين نظافة مطلقة للسـطوح السـنية بمدة تنظيف خمس دقائق، و برغم ذلك اسـتطاع في الفحـص الأول ٥,٢٨ % مـن مسـتخدمي الفرشاة تحقيق نظافة جيدة للمسـافات ما بين السـنية الدهليزيـة فقط (HYG ≤ ٨٠ %) في حين لم يصل أي من مستخدمي المسواك إلى هذا المستوى، و سـواء بالفرشاة أو المسواك كـان تنظيف السطوح الدهليزية أفضل من اللسـانية (05.0< P) . كانت فـي المرحلـة الثانيـة قـيم اللويحـة و التهاب اللثــة دائماً أسوأ عند مستخدمي المسواك و لكن هذا الفارق لم يكن جوهرياً. النتيجة أن المسواك لا يزيل اللويحة بشـكل كامل و لكن توضع اللويحة على السـطوح الدهليزية و اللسانية كان مماثلاً تقريباً لما هو عند مستخدمي الفرشاة، و تبقـى فرشـاة الأسـنان متفوقـة بوضوح في تنظيف المسافات بين السنية.

miswak السواك فرشاة الأسنان فعالية تنظيف Toothbrush Cleaning Efficiency

الفرم الديناميكي في التعرف على الكيان المسمى للنصوص العربية التاريخية

384 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت درب على نص حديث من مصادر الويب، مما يجعل مناسبا له بمهمة تاريخية مشكوك فيها.لتخفيف ندرة الموارد العربية السعودية العربية، نقترح نموذج فرقة ديناميكية باستخدام العديد من المتعلمين.يتم تحقيق الجانب الديناميكي من خلال الاستفادة من التنبؤ والميزات على نتائج خوارزمية NER التي حددت التي أجريت بشكل أفضل على مهمة محددة في الوقت الفعلي.نقوم بتقييم نهجنا ضد أحدث أساليب النيران العربية والثابتة من أساليب الفرقة الثابتة عبر مهمة تاريخية تاريخية جديدة التي أنشأناها.تظهر نتائجنا أن نهجنا يحسن على أحدث ويودر من 0.8 درجة مئوية بشأن هذه المهمة الصعبة.

عربي قياسي صناعة حمض الفوسفور

طريقة غير منشأة ل OCR بعد التصحيح والتطبيع الإملائي للفنلندية

565 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.

ocr post-correction spelling normalisation OCR بعد التصحيح التطبيع الإملائي ocr. صناعة حمض الفوسفور

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

1724 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الوادي الدولية الخاصة

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا

Cleaning Dirty Books: Post-OCR Processing for Previously Scanned Texts

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة