ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبح الكشف والتحليلات الهجومية تحليلها مجالا رئيسيا للبحث في معالجة اللغة الطبيعية.تعرض حرية المشاركة في وسائل التواصل الاجتماعي مستخدمين عبر الإنترنت للمشاركات المصممة للتشويه أو إهانة أو تؤذيها وفقا للجنس أو العرق أو الدين أو الإيديولوجية أو الخصائ ص الشخصية الأخرى.مع التركيز على المصانعين الشباب من المنصات الاجتماعية المعروفة في Twitter، Instagram، و YouTube، قمنا بجمع كوربوس يتكون من 47،128 تعليقات إسبانية يدويا على الفئات المعروفة الهجومية.تعلق مجموعة فرعية من الجثة درجة من الثقة لكل ملصق، لذلك من الممكن أن كل من تصنيف متعدد الطبقات ودراسات الانحدار المتعدد الناتج ممكن.في هذه الورقة، نقدم كوربوس، ومناقشة عملية بناءها، والمستجدات، وبعض التجارب الأولية معها لتكون خطاس أساسي لمجتمع البحث.
يحقق هذا العمل في أنظمة الترجمة الآلية العصبية (NMT) لترجمة مراجعات المستخدم الإنجليزية إلى الكرواتية والصربية، وهنايتان لغات معقدة مماثلة مورفولوجية. يتم استخدام نوعين من المراجعات لاختبار الأنظمة: تقييم الأفلام IMDB ومراجعات منتجات الأمازون. يتم اس تكشاف نوعين من بيانات التدريب: كورسا متوازية كبيرة من النطاق، بالإضافة إلى كوربوس الموازية الاصطناعية الصغيرة التي تم الحصول عليها بواسطة الترجمة الآلية لمراجعات الأمازون الإنجليزية أحادية الأمازون في اللغات المستهدفة. تظهر كل من الدرجات التلقائية والتقييم البشري أن استخدام Corpus في المجال الصناعي مع مجموعة فرعية مختارة من بيانات خارج المجال هو الخيار الأفضل. تشير النتائج المنفصلة على مراجعات IMDB و Amazon إلى أن أنظمة MT تؤدي بشكل مختلف عن أنواع المراجعة المختلفة بحيث لا ينبغي اعتبار مراجعات المستخدمين بشكل عام كندي متجانس. ومع ذلك، فإن البحث أكثر تفصيلا حول أكبر قدر من المراجعات المختلفة التي تغطي النطاقات / الموضوعات المختلفة ضرورية لفهم هذه الاختلافات بشكل كامل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا