Layoutreader: ما قبل التدريب للنص والتخطيط لكشف عن ترتيب القراءة


الملخص بالعربية

كشف ترتيب القراءة هو حجر الزاوية لفهم المستندات البصرية (على سبيل المثال، الإيصالات والأشكال). لسوء الحظ، أي عمل موجود استفاد من نماذج التعلم العميقة المتقدمة لأنها شاقة للغاية للتعليق على مجموعة بيانات كبيرة بما فيه الكفاية. نلاحظ أن ترتيب القراءة من مستندات Word مضمن في بيانات تعريف XML الخاصة بهم؛ وفي الوقت نفسه، من السهل تحويل مستندات Word إلى ملفات PDF أو الصور. لذلك، في طريقة تلقائية، نقوم ببناء Redlybank، مجموعة بيانات معيار تحتوي على ترتيب القراءة والنصوص والتخطيط لمعلومات 500000 صورة وثيقة تغطي مجموعة واسعة من أنواع المستندات. هذه مجموعة بيانات كبيرة على نطاق واسع يطلق تشغيل قوة الشبكات العصبية العميقة لكشف عن الطلب. على وجه التحديد، يلتقط LayoTreader المقترح معلومات النص والتخطيط لتوقعات ترتيب القراءة باستخدام نموذج SEQ2SEQ. يؤدي ذلك بشكل مثالي تقريبا في اكتشاف أمر القراءة ويحسن بشكل كبير من محركات الحرية الخارجية المفتوحة والمصادر الحرارية في ترتيب خطوط نصية في نتائجها في تجاربنا. يتم توفير مجموعة البيانات والنماذج علنا ​​في https://aka.ms/layouoTreader.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث