ترغب بنشر مسار تعليمي؟ اضغط هنا

نظرا لأن نماذج NLP منتشرة بشكل متزايد في إعدادات موقع اجتماعي مثل الكشف عن المحتوى المسيء عبر الإنترنت، فمن الضروري التأكد من أن هذه النماذج قوية. تتمثل إحدى طرق تحسين متواضع النموذج في إنشاء بيانات معدية مضادة للعمل (CAD) لنماذج التدريب التي يمكن أن تتعلم بشكل أفضل التمييز بين الميزات الأساسية وتذكير البيانات. في حين أن النماذج المدربة على هذا النوع من البيانات قد أظهرت تعميم تعميمات خارج نطاق، فلا تزال غير واضحة ما هي مصادر هذه التحسينات. نحقق في فوائد CAD لنماذج NLP الاجتماعية من خلال التركيز على ثلاثة بنيات الحوسبة الاجتماعية --- الشعور والجوعي، خطاب الكراهية. تقييم أداء النماذج المدربة مع وبدون CAD عبر أنواع مختلفة من مجموعات البيانات، نجد أنه أثناء قيام النماذج المدربة على CAD بإظهار الأداء السفلي داخل المجال، فإنهم يعممون أفضل من المجال. نحن نفث هذا التناقض الواضح باستخدام تفسيرات الجهاز والعثور على أن CAD يقلل من الاعتماد على النموذج على ميزات زائفة. الاستفادة من نطق رواية من CAD لتحليل علاقتهم بأداء نموذجي، نجد أن CAD الذي يعمل على البناء مباشرة أو مجموعة متنوعة من CAD يؤدي إلى أداء أعلى.
التحيز بين الجنسين هو حدوث متكرر في التطبيقات القائمة على البرامج الوطنية للتنمية الوطنية، وخاصة وضوحا باللغات التي يتم تنشيطها بين الجنسين. يمكن أن تظهر التحيز من خلال جمعيات بعض الصفات وتحريك الأسماء مع الجنس الطبيعي للإرازات، ولكن أيضا بسبب التردد ات الجنسانية النحوية غير الموازنة من الكلمات المصدرة. يصبح هذا النوع من التحيز أكثر وضوحا في توليد ينصوصات التحدث حيث لا يتم تحديد النوع الاجتماعي داخل الجملة، لأن معظم تطبيقات NLP الحالية لا تزال تعمل على سياق مستوى الجملة. كخطوة نحو NLP أكثر شمولية، تقترح هذه الورقة نهجا تلقائيا وعموما إعادة كتابة جمل محادثة قصيرة. يمكن تطبيق طريقة إعادة كتابة على الجمل التي، دون سياق خارجي، لديها بدائل مكافئة متعددة من حيث الجنس. يمكن تطبيق الطريقة على إنشاء مخرجات متوازنة بين الجنسين وكذلك لإنشاء بيانات تدريب متوازنة بين الجنسين. يعتمد النهج المقترح على نظام ترجمة آلية عصبية مدربة على ترجمة "من نوع جنسي إلى آخر. إظهار كل من التحليل الأوتوماتيكي واليدوي للنهج النتائج الواعدة فيما يتعلق بالجيل التلقائي من البدائل الجنسانية لجمل المحادثة باللغة الإسبانية.
في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا ت - متعددة اللغات (جمل الزوج تنتمي إلى نفس اللغة) واللغة اللغوية (جمل الزوج تنتمي إلى لغات مختلفة). يتم توفير بيانات التدريب باللغة الإنجليزية فقط. وبالتالي، فإننا نوظف تقنيات النقل عبر اللغات. توظف نهجنا نماذج اللغة القائمة على المحولات التي تم تدريبها مسبقا، مثل Electra و Albert، للمهمة الإنجليزية و XLM-R لجميع المهام الأخرى. لتحسين أداء هذه الأنظمة، نقترح إضافة إشارة إلى الكلمة التي سيتم إزالتها وتزيد بياناتنا عن طريق انعكاس زوج الجملة. ونحن كذلك زيادة DataSet المقدمة إلينا مع WIC و XL-WIC و SEMCOR 3.0. باستخدام الكفر، نحقق أداء قويا في المهمة المتعددة اللغات، حيث وضعت أولا في المهام الفرعية EN-EN و FR-FR. بالنسبة للإعداد المتبادل، فإننا أعملنا بترجمة طرق اختبار وطريقة طلقة صفرية، باستخدام نماذجنا متعددة اللغات، مع الأداء الأخير بشكل أفضل قليلا.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا