تحقق الإملاء الصيني (CSC) هو اكتشاف أخطاء الإملاء الصيني وتصحيحها.تستخدم العديد من النماذج من الارتباك المحدد مسبقا لتعلم رسم خرائط بين الأحرف الصحيحة وأهمياتها المماثلة المماثلة البصرية أو مماثلة ولكن قد يكون الرسم الخرائط خارج المجال.تحقيقا لهذه الغاية، نقترح Spellbert، وهو نموذج مسبق مع ميزات إضافية قائمة على الرسم البياني ومستقلة على مجموعة الارتباك.لالتقاط الأنماطين الخاطئة بشكل صريح، فإننا نوظف شبكة عصبية رسم بيانية لإدخال معلومات جذرية وبرينيا كميزات بصرية وعصرية.لتحسين الصدر هذه الميزات مع تمثيلات الأحرف، ونحن نضع نموذج لغة ملثم على حد سواء مهام التدريب مسبقا.من خلال هذا التدريب المسبق الأغنياء المظلات، يمكن أن تظهر Spellbert مع نصف حجم Bert فقط أداء تنافسي وجعل أحدث نتيجة في مجموعة بيانات OCR حيث لا يتم تغطية معظم الأخطاء من قبل مجموعة الارتباك الموجودة.
Chinese Spelling Check (CSC) is to detect and correct Chinese spelling errors. Many models utilize a predefined confusion set to learn a mapping between correct characters and its visually similar or phonetically similar misuses but the mapping may be out-of-domain. To that end, we propose SpellBERT, a pretrained model with graph-based extra features and independent on confusion set. To explicitly capture the two erroneous patterns, we employ a graph neural network to introduce radical and pinyin information as visual and phonetic features. For better fusing these features with character representations, we devise masked language model alike pre-training tasks. With this feature-rich pre-training, SpellBERT with only half size of BERT can show competitive performance and make a state-of-the-art result on the OCR dataset where most of the errors are not covered by the existing confusion set.
References used
https://aclanthology.org/
This paper describes our submission for the WASSA 2021 shared task regarding the prediction of empathy, distress and emotions from news stories. The solution is based on combining the frequency of words, lexicon-based information, demographics of the
This paper investigates how to correct Chinese text errors with types of mistaken, missing and redundant characters, which are common for Chinese native speakers. Most existing models based on detect-correct framework can correct mistaken characters,
An understanding of humor is an essential component of human-facing NLP systems. In this paper, we investigate several methods for detecting humor in short statements as part of Semeval-2021 Shared Task 7. For Task 1a, we apply an ensemble of fine-tu
Large-scale pretrained transformer models have demonstrated state-of-the-art (SOTA) performance in a variety of NLP tasks. Nowadays, numerous pretrained models are available in different model flavors and different languages, and can be easily adapte
Best-worst Scaling (BWS) is a methodology for annotation based on comparing and ranking instances, rather than classifying or scoring individual instances. Studies have shown the efficacy of this methodology applied to NLP tasks in terms of a higher