Tremolo-Tweets: مجموعة متعددة التسمية من التغريدات الفرنسية للحصول على توصيف تسجيل اللغة


الملخص بالعربية

السجلات غير الرسمية والمحايدة واللغة الرسمية ملموسة للغاية في إنتاج خطاب.ومع ذلك، ما زالوا مدروسين بشكل سيئ في معالجة اللغة الطبيعية (NLP)، وخاصة خارج اللغة الإنجليزية، ولأنواع نصية جديدة مثل التغريدات.لتحفيز البحث، تقدم هذه الورقة كجن كبير قدره 228،505 تغريدات فرنسية (6M كلمات) مشروح في سجلات اللغة.يتم توفير التسميات من قبل مصنف كاممبرت متعدد الملصقات المدربة وتحقق من مجموعة فرعية مشروحة يدويا من Corpus، في حين يتم تحديد التغريدات لتجنب التحيزات غير المرغوب فيها.بناء على Corpus، يتم توفير تحليل أولي للسمات اللغوية من النحاذج البشرية أو الاستخراج التلقائي لوصف Corpus وتمهيد الطريق لمكاميات NLP المختلفة.تتوفر Corpus، دليل التوضيحية والتصنيف على http://tremolo.irisa.fr.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث