StoryDB: مجموعة بيانات سرد متعددة اللغات


الملخص بالعربية

تقدم هذه الورقة StoryDB --- مجموعة بيانات واسعة متعددة اللغات من الروايات.StoryDB هي جثة من النصوص التي تضم قصص في 42 لغة مختلفة.تتضمن كل لغة 500+ قصص.تشمل بعض اللغات أكثر من 20 ألف قصة.يتم فهرسة كل قصة عبر اللغات والمسمى مع العلامات مثل النوع أو الموضوع.يعرض Corpus تباين موضعي ولغوي غني ويمكن أن يكون بمثابة مورد لدراسة دور السرد في معالجة اللغة الطبيعية في مختلف اللغات بما في ذلك الموارد المنخفضة.نوضح أيضا كيف يمكن استخدام مجموعة البيانات لقياس ثلاث نماذج متعددة اللغات الحديثة، وهي mdistillbert و mbert و xlm-roberta.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث