في حين أن التلخيص المبشط في بعض اللغات، مثل اللغة الإنجليزية، فقد وصلت بالفعل نتائج جيدة إلى حد ما بسبب توفر موارد تحديد الاتجاه، مثل مجموعة بيانات CNN / Daily Mail، والتقدم الكبير في النماذج العصبية الإنتاجية، والتقدم المحرز في تلخيص الجماع للعربية اللغة الخامسة الأكثر تكلم على مستوى العالم، لا تزال في أحذية الأطفال. في حين أن بعض الموارد لتلخيص الاستخراجي كانت متاحة لبعض الوقت، في هذه الورقة، نقدم أول كائن من ملخصات الأخبار المذهلة التي كتبها الإنسان باللغة العربية، على أمل وضع أساس هذا الخط من البحث لهذه اللغة الهامة. تتكون DataSet من أكثر من 21 ألف عنصر. استخدمنا هذه البيانات هذه البيانات لتدريب مجموعة من أنظمة تلخيص الجماع العصبي للعربية من قبل طرازات اللغة المدربة مسبقا مسبقا مثل بيرت متعددة اللغات وأرابيرت والفتنة متعددة اللغات - 50. كما مجموعة البيانات العربية أصغر بكثير من .g. DataSet CNN / Daily Mail DataSet، كما طبقنا نقل المعرفة عبر اللغات إلى تحسين أداء أنظمةنا الأساسية. تضمنت الإعدادات نماذج ملخصتين تعتمد على M-Bert تدرب أصلا على الهنغارية / الإنجليزية ونظام مماثل على أساس M-BART-50 مدربا أصلا للروسية التي تم ضبطها بشكل جيد للعربية. تم إجراء تقييم النماذج من حيث الحمر، وتم تقييم يدوي للطلاقة وكفاية النماذج أيضا.
While abstractive summarization in certain languages, like English, has already reached fairly good results due to the availability of trend-setting resources, like the CNN/Daily Mail dataset, and considerable progress in generative neural models, progress in abstractive summarization for Arabic, the fifth most-spoken language globally, is still in baby shoes. While some resources for extractive summarization have been available for some time, in this paper, we present the first corpus of human-written abstractive news summaries in Arabic, hoping to lay the foundation of this line of research for this important language. The dataset consists of more than 21 thousand items. We used this dataset to train a set of neural abstractive summarization systems for Arabic by fine-tuning pre-trained language models such as multilingual BERT, AraBERT, and multilingual BART-50. As the Arabic dataset is much smaller than e.g. the CNN/Daily Mail dataset, we also applied cross-lingual knowledge transfer to significantly improve the performance of our baseline systems. The setups included two M-BERT-based summarization models originally trained for Hungarian/English and a similar system based on M-BART-50 originally trained for Russian that were further fine-tuned for Arabic. Evaluation of the models was performed in terms of ROUGE, and a manual evaluation of fluency and adequacy of the models was also performed.
المراجع المستخدمة
https://aclanthology.org/