Spellbert: نموذج محدود يدويا خفيف الوزن لفحص الإملاء الصيني


الملخص بالعربية

تحقق الإملاء الصيني (CSC) هو اكتشاف أخطاء الإملاء الصيني وتصحيحها.تستخدم العديد من النماذج من الارتباك المحدد مسبقا لتعلم رسم خرائط بين الأحرف الصحيحة وأهمياتها المماثلة المماثلة البصرية أو مماثلة ولكن قد يكون الرسم الخرائط خارج المجال.تحقيقا لهذه الغاية، نقترح Spellbert، وهو نموذج مسبق مع ميزات إضافية قائمة على الرسم البياني ومستقلة على مجموعة الارتباك.لالتقاط الأنماطين الخاطئة بشكل صريح، فإننا نوظف شبكة عصبية رسم بيانية لإدخال معلومات جذرية وبرينيا كميزات بصرية وعصرية.لتحسين الصدر هذه الميزات مع تمثيلات الأحرف، ونحن نضع نموذج لغة ملثم على حد سواء مهام التدريب مسبقا.من خلال هذا التدريب المسبق الأغنياء المظلات، يمكن أن تظهر Spellbert مع نصف حجم Bert فقط أداء تنافسي وجعل أحدث نتيجة في مجموعة بيانات OCR حيث لا يتم تغطية معظم الأخطاء من قبل مجموعة الارتباك الموجودة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث