ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا ت - متعددة اللغات (جمل الزوج تنتمي إلى نفس اللغة) واللغة اللغوية (جمل الزوج تنتمي إلى لغات مختلفة). يتم توفير بيانات التدريب باللغة الإنجليزية فقط. وبالتالي، فإننا نوظف تقنيات النقل عبر اللغات. توظف نهجنا نماذج اللغة القائمة على المحولات التي تم تدريبها مسبقا، مثل Electra و Albert، للمهمة الإنجليزية و XLM-R لجميع المهام الأخرى. لتحسين أداء هذه الأنظمة، نقترح إضافة إشارة إلى الكلمة التي سيتم إزالتها وتزيد بياناتنا عن طريق انعكاس زوج الجملة. ونحن كذلك زيادة DataSet المقدمة إلينا مع WIC و XL-WIC و SEMCOR 3.0. باستخدام الكفر، نحقق أداء قويا في المهمة المتعددة اللغات، حيث وضعت أولا في المهام الفرعية EN-EN و FR-FR. بالنسبة للإعداد المتبادل، فإننا أعملنا بترجمة طرق اختبار وطريقة طلقة صفرية، باستخدام نماذجنا متعددة اللغات، مع الأداء الأخير بشكل أفضل قليلا.
تقدم هذه الورقة أحد أنظمة المحلول الفائزة الأعلى للمهمة 7 في Semeval2021، Hahackathon: الكشف عن الفكاهة والعموم. تنقسم هذه المسابقة إلى مهام اثنين، Task1 مع ثلاث مهام فرعية 1A، 1B، و 1C، و TASK2. الهدف من المهمة 1 هو التنبؤ إذا كان النص يعتبر روح الد عابة أم لا، وإذا كان الأمر نعم، فقم بالتنبؤ بمكام روح الدعابة وما إذا كان التصنيف فكاهة سيكون مثيرا للجدل. الهدف من المهمة 2 هو التنبؤ بكيفية اعتبار النص مسيئا للمستخدمين بشكل عام. تم تطوير حلنا باستخدام نموذج روبرتا المدرب مسبقا مع تقنيات الفرقة. تصف الورقة بنية نظام الحل المقدم مع التجارب وضبط فرط الضغط الذي أدى إلى هذا النظام القوي. في المرتبة النموذجية المرتبة الثالثة والرابعة من 50 فريقا في المهام 1C و 1A مع درجة F1 0.6270 و 0.9675 على التوالي. في الوقت نفسه، احتل النموذج واحدا من أفضل 10 نماذج في المهمة 1B والمهمة 2 مع درجات RMSE من 0.5446 و 0.4469 على التوالي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا