مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

طريقة غير منشأة ل OCR بعد التصحيح والتطبيع الإملائي للفنلندية

An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish

526 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

ocr post-correction spelling normalisation OCR بعد التصحيح التطبيع الإملائي ocr. صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

من المعروف أن الأساليب التاريخية تحتوي على أخطاء قدمتها أساليب OCR (التعرف على الأحرف البصرية) المستخدمة في عملية الرقمنة، غالبا ما يقال إنها مهينة أداء أنظمة NLP.تصحيح هذه الأخطاء يدويا هي عملية تستغرق وقتا طويلا، وقد تم الاعتماد على جزء كبير من الأساليب التلقائية على القواعد أو تعلم الآلات الخاضعة للإشراف.نحن نبني على العمل السابق على استخراج مواز تلقائي بالكامل لبيانات متوازية لتدريب نموذج NMT تسلسل تستند إلى الطرف (الترجمة الآلية العصبية) لإجراء تصحيح خطأ OCR المصمم للغة الإنجليزية، وتكييفه إلى الفنلندية من خلال اقتراح الحلول التي تأخذالمورفولوجيا الغنية للغة في الاعتبار.تظهر طريقة جديدة لدينا أداء متزايد في حين تبقى غير مؤسس بالكامل، مع الاستفادة الإضافية للتطبيع الإملائي.تتوفر شفرة المصدر والنماذج على Github و Zenodo.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

249 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

توفر تبسيط الجملة المتوازي (SS) نادرة لأوصوامل SS العصبية. نقترح طريقة غير منشأة لبناء SS Corpora من Translation Translation ثنائي اللغة واسعة النطاق، مما يخفف من الحاجة إلى SS Corporged Corge. يتم تحفيز طريقتنا عن طريق النتائج التالية: يميل نموذج ال ترجمة الآلية العصبية عادة إلى توليد المزيد من الرموز عالية التردد وفرق مستويات التعقيد النصية موجودة بين المصدر واللغة المستهدفة ل Translation Corpus. من خلال أخذ زوج من المصدر الجمل من Corpus Translation وترجمات مراجعها في لغة الجسر، يمكننا إنشاء بيانات SS موازية زائفة واسعة النطاق. بعد ذلك، نبقي أزواج الجملة هذه مع اختلاف أعلى تعقيد كزواج من جملة SS. يمكن أن تلبي المبنى SS Corpora مع نهج غير مدفوع التوقعات بأن الأحكام المحاذاة تحافظ على نفس المعاني وأن يكون لها اختلاف في مستويات تعقيد النص. تظهر النتائج التجريبية أن أساليب SS التي تدربت بها كوربورا تحقق النتائج من أحدث النتائج وتفوق النتائج على نتائج اللغة الإنجليزية في Wikilarge.

تمكين التعميم المنهجي building sentence simplification sentence simplification corpora بناء جملة تبسيط جملة تبسيط corpora. صناعة حمض الفوسفور

الطابع الهرمي Tagger لتصحيح الأخطاء الإملائي النصي

349 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال مستوى المميز وبالتالي قاموس مفردات محددة مسبقا مسبقا.في هذه الورقة، نقدم طراز Tagger Tagner التسلسل الهرمي، أو HCTAGGER، لتصحيح الأخطاء الإملائي في النص القصير.نستخدم نموذج لغة مدرب مسبقا على مستوى الحرف كتشفير نصي، ثم يتوقع تحرير مستوى الأحرف لتحويل النص الأصلي إلى شكل خالي من الأخطاء مع مساحة تسمية أصغر بكثير.للحصول على فك التشفير، نقترح نهجا هرميا متعدد المهام للتخفيف من مسألة توزيع الملصقات الطويلة الذيل دون تقديم معلمات نموذجية إضافية.تثبت التجارب في مجموعات بيانات تصحيح أخطاء الأخشاب العامة أن HCTAGGER هو نهج دقيق وأسرع بكثير من العديد من النماذج الموجودة.

spelling error correction text spelling error hierarchical character tagger تصحيح الأخطاء الإملائي خطأ تهجئة النص الطابع الهرمي Tagger. صناعة حمض الفوسفور المزيد..

التقاط غير صحيح المتكلم: تصحيح ما بعد التركيز على السماعات لتلخيص الحوار الجماعي

310 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.

abstractive dialogue summarization capturing speaker incorrectness abstractive dialogue تلخيص الحوار المبشور التقاط المتكلم غير صحيح حوار مبادرة صناعة حمض الفوسفور المزيد..

سير العمل بعد التحرير: التحديات التدريبية ل LSPs، بعد المحررين والأوساط الأكاديمية

398 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تبنت تكنولوجيا اللغة بالفعل إلى حد كبير من قبل معظم مزودي خدمات اللغة (LSPs) ومدمج في عمليات الترجمة التقليدية. في هذا السياق، هناك العديد من الأساليب المختلفة لتطبيق النصوص بعد التحرير (PE) من نص مترجمة النص، بما في ذلك عمليات سير عمل مختلفة وخطوات يمكن أن تكون فعالة أكثر أو أقل فعالية ومواتية. في هذه الورقة، نقترح سير عمل بعد تحرير ثلاث خطوات (PEW). الرسم من Insight Insight، تهدف هذه الورقة إلى توفير إطار أساسي ل LSPs و Post-Editers حول كيفية تبسيط سير عمل ما بعد التحرير من أجل تحسين الجودة، وتحقيق ربحية أعلى وعودة أفضل على الاستثمار وتوحيد العمليات الداخلية من حيث جهود الإدارة واللغوية عندما يتعلق الأمر بخدمات PE. نقول أن PEW شامل يتكون في ثلاث مهام أساسية: عمليات تقييم ما قبل التحرير والتحرير بعد التحرير والترجمة التوضيحي (MT) (GUERRERO، 2018) المدعومة من ثلاثة أدوار أساسية: ما قبل المحرر، ما بعد المحرر والانجيلي ( جين، 2020). علاوة على ذلك، توضح الورقة المرسلة مسبقة التحديات التدريبية الناشئة عن هذه PEW، التي تدعمها نتائج البحوث التجريبية، على النحو الوارد في مسح رقمي بين المهنيين في مجال صناعة اللغة (الجينات، 2020)، التي أجريت في سياق ندوة الويب بعد التحرير وبعد تتألف عينة من 51 ممثلا لممثلي LSPs و 12 ممثلين عن ممثلي SLV (بائعي اللغة الفردي).

language service providers post-editors and academia post-editing workflow مقدمي خدمات اللغة بعد المحررين والأوساط الأكاديمية سير العمل بعد التحرير صناعة حمض الفوسفور المزيد..

تنظيف الكتب القذرة: معالجة ما بعد التعرف عبر الإنترنت للنصوص الممسوحة ضوئيا سابقا

373 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مطلوبة كميات كبيرة من العمل لتنظيف مجموعات كبيرة من الكتب الرقمية لتحليل NLP، بسبب وجود أخطاء في النص الممسوح ضوئيا ووجود أحجام مكررة في كورسا. في هذه الورقة، نعتبر مسألة deCuplication في وجود أخطاء التعرف على الأحرف البصرية (OCR). نقدم طرق للتعامل م ع هذه الأخطاء، والتي تم تقييمها على مجموعة من 19347 نصية من مشاريع Gutenberg DataSet و 96،635 نصية من مكتبة Hathitrest. نوضح أن التحسينات في النماذج اللغوية الآن تمكن الآن من اكتشاف وأصحام أخطاء التعرف الضوئي على الحروف دون النظر في صورة المسح نفسه. توفر التناقضات التي عثرت عليها محاذاة أزواج من عمليات فحص نفس العمل الأساسي من نفس البيانات التدريبية لإنشاء نماذج للكشف عن الأخطاء وتصحيحها. نحدد الإصدار الكنسي لكل من الكتب 17،136 مرارا وتكرارا من الفحص من 58888 يوم. أخيرا، نحقق في طرق الكشف عن الأخطاء وتصحيحها في نصوص نسخة واحدة. نظهر أنه في المتوسط، تقوم طريقةنا بتصحيح أكثر من ستة أضعاف العديد من الأخطاء كما تقدم. كما نقدم تحليلا مثيرا للاهتمام بشأن العلاقة بين جودة المسح والعوامل الأخرى مثل الموقع والنشر.

cleaning dirty books previously scanned texts processing for previously تنظيف الكتب القذرة الصور الممسوحة ضوئيا سابقا معالجة سابقا صناعة حمض الفوسفور المزيد..

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

1533 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

الجامعة العربية الدولية الخاصة

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

طريقة غير منشأة ل OCR بعد التصحيح والتطبيع الإملائي للفنلندية

An Unsupervised method for OCR Post-Correction and Spelling Normalisation for Finnish

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة