تم دراسة ضغط الجملة (SC)، التي تهدف إلى تقصير الأحكام مع الاحتفاظ بكلمات مهمة تعبر عن المعاني الأساسية، لسنوات عديدة في العديد من اللغات، خاصة باللغة الإنجليزية. ومع ذلك، فإن التحسينات في مهمة SC الصينية لا تزال قليلة جدا بسبب العديد من الصعوبات: نادرة من كوربورا الموازية، وتحبيب تجزئة مختلفة من الجمل الصينية، والأداء غير الكامل للتحليلات النحوية. علاوة على ذلك، تم التحقيق في نماذج SC الصينية بأكملها حتى الآن. في هذا العمل، نبني مجموعة بيانات SC من الجمل العامية الصينية من نظام الإجابة على مدى واقعية في مجال الاتصالات السلكية واللاسلكية، ثم نقترح نموذج صيني عصبي SC معزز مع خريطة تنظيم ذاتية (SOM-NCSCM)، إلى احصل على رؤية قيمة من البيانات وتحسين أداء نموذج SC الصيني العصبي بأكمله بطريقة صالحة. تظهر النتائج التجريبية أننا يمكن أن تستفيد بشكل كبير من التحقيق العميق في التشابه بين البيانات، وتحقيق درجة F1 واعدة قدرها 89.655 وفرز Bleu4 البالغة 70.116، والتي توفر أيضا خط أساس لمزيد من الأبحاث حول مهمة SC الصينية.
Sentence Compression (SC), which aims to shorten sentences while retaining important words that express the essential meanings, has been studied for many years in many languages, especially in English. However, improvements on Chinese SC task are still quite few due to several difficulties: scarce of parallel corpora, different segmentation granularity of Chinese sentences, and imperfect performance of syntactic analyses. Furthermore, entire neural Chinese SC models have been under-investigated so far. In this work, we construct an SC dataset of Chinese colloquial sentences from a real-life question answering system in the telecommunication domain, and then, we propose a neural Chinese SC model enhanced with a Self-Organizing Map (SOM-NCSCM), to gain a valuable insight from the data and improve the performance of the whole neural Chinese SC model in a valid manner. Experimental results show that our SOM-NCSCM can significantly benefit from the deep investigation of similarity among data, and achieve a promising F1 score of 89.655 and BLEU4 score of 70.116, which also provides a baseline for further research on Chinese SC task.
المراجع المستخدمة
https://aclanthology.org/