ترغب بنشر مسار تعليمي؟ اضغط هنا

السجلات غير الرسمية والمحايدة واللغة الرسمية ملموسة للغاية في إنتاج خطاب.ومع ذلك، ما زالوا مدروسين بشكل سيئ في معالجة اللغة الطبيعية (NLP)، وخاصة خارج اللغة الإنجليزية، ولأنواع نصية جديدة مثل التغريدات.لتحفيز البحث، تقدم هذه الورقة كجن كبير قدره 228، 505 تغريدات فرنسية (6M كلمات) مشروح في سجلات اللغة.يتم توفير التسميات من قبل مصنف كاممبرت متعدد الملصقات المدربة وتحقق من مجموعة فرعية مشروحة يدويا من Corpus، في حين يتم تحديد التغريدات لتجنب التحيزات غير المرغوب فيها.بناء على Corpus، يتم توفير تحليل أولي للسمات اللغوية من النحاذج البشرية أو الاستخراج التلقائي لوصف Corpus وتمهيد الطريق لمكاميات NLP المختلفة.تتوفر Corpus، دليل التوضيحية والتصنيف على http://tremolo.irisa.fr.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا