ترغب بنشر مسار تعليمي؟ اضغط هنا

نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة لكلا النموذجين للتعميم من اللغة الإنجليزية إلى لغات أخرى.ومع ذلك، هناك فجوة متوقعة في الأداء بين النماذج التي تم اختبارها عبر اللغات والنماذج الأولية.يتوفر أفضل نموذج أداء (مصنف المحتوى الهجومي) عبر الإنترنت ك api بقية.
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا