معالجة البريد هي النهج الأكثر تقليدية لتصحيح الأخطاء التي تسببها أنظمة التعرف على الأحرف البصرية (OCR).يتم اتخاذ خطوتين عادة لتصحيح أخطاء تعض عبر الإنترنت: الكشف والتصحيحات.بالنسبة للمهمة الأولى، أظهرت طرق تعلم الآلات الخاضعة للإشراف عروضا حديثة.تركز
ت النهج المقترحة في السابق بشكل بارز على الجمع بين الميزات المعجمية والسياقية والإحصائية للكشف عن الأخطاء.في هذه الدراسة، نبلغ عن نظام رواية للكشف عن الأخطاء وهو ما يعتمد فقط على التهم N-Gram من رمز المرشح.بالإضافة إلى كونها بسيطة وأقل تكلفة حسابية، فإن نظامنا المقترح يدق النظم السابقة المبلغ عنها في مسابقة ICDAR2019 على اكتشاف خطأ OCR مع هوامش ملحوظة.حققنا درجات F1 الحديثة لمدة ثمانية من أصل عشر لغات أوروبية.الحد الأقصى للتحسين هو الإسبانية التي تحسنت من 0.69 إلى 0.90، والحد الأدنى للبولندية من 0.82 إلى 0.84.
من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأ
ساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.
بناء حواسيب تستغني عن أدوات الإدخال محدودة الفضاء (مثل لوحة المفاتيح) وامتلاكها لمقدرة السمع و القراءة ظل من مجالات البحث النشطة في علوم الحاسوب , قدم فيها الباحثون عدد مقدر من الطرق و الخوارزميات لحوسبةالسمع و القراءة ضمن ما يعرف بالتعرف على الأنماط
في علوم الحاسوب. ومن بين هذه الطرق الطريقة الشمولية (Holistic approach)، التي أثبتت كفاءتها في التعرف السريع (سمعاً أو قراءة) بالإضافة إلي مفهوم التعلم العميق الذي يعتبر ثورة في مجال تعلم الآلة في الوقت الحالي,وزاد الإهتمام به حديثاً خصوصاً بعد الزيادة الكبيرة في سرعة المعالجة الحاسوبية و التقدم في المعالجة المتوازية. هذه الدراسة تقدم تجارب إدراك ناجحة للشبكات العصبية العميقة في التعرف شمولياً على الأسماء العربية الأكثر شيوعاً، حيث تم إستخدام أدوات التعلم العميق و تمت تجربتها على السبعة أسماءالاكثر شيوعا بحسب مجموعة بيانات جامعة السودان للاسماء (SUST-ARG names) وبعد إجراء مراحل التدريب الخمسة , إستطاعت الشبكة أن تتعرف علي كل الأسماء وبنسبة 100% .
يعدّ التعرف الآلي إلى السيارات بواسطة أرقامها المثبتة على لوحتها موضوعاً مهماً, لما لهو من استخدامات متعددة منها التطبيقات الأمنية كمراقبة مداخل مؤسسة حساسة. و مراقبة السيارات على الطرقات و كشف السيارات المسروقة و حتى أنه يمكن أن يفيد في
الدراسات ال
إحصائية كدراسة الازدحام المروري في منطقة ما وغيرها. يعرض هذا العمل تفاصيل بناء نظام تعرف آلي إلى لوحة السيارة و أيضاً التعرف إلى لون السيارة.
جرى التركيز في هذا البحث على مرحلة تحويل الأرقام الموجودة داخل صورة لوحة السيارة إلى أرقام فعلية, لتحسين أداء النظام ككل نظرًا لكثرة الأخطاء التي تحدث في هذه المرحلة و بالتالي فشل التعرف بالكامل.
قمنا في هذا البحث باستخدام خوارزمية,تحليل المكونات الأساسية
(Principal Component Analysis (PCA لللتعرف على أرقام لوحة المفاتيح الموجودة داخل الصورة,و دمجها مع الخوارزمية المستخدمة عادة و هي خوارزمية التعرف البصري Optical Character Recognition (OCR للتقليل من الأخطاء المرتكبة في عملية التعرف على الأرقام , ومن ثم تحسين أداء نظام التعرف الآلي على لوحات السيارات.كما قمنا بإضافة التّعرف إلى لون السيارة (الذي يعدّ موسطاً مميزًا آخر للسيارة)مما يسمح اعتماداً على قاعدة معطيات بكشف السيارات المسروقة و زيادة موثوقية النظام.