ترغب بنشر مسار تعليمي؟ اضغط هنا

تكامل البيانات لتصنيف التعليق السام: جعل أكثر من 40 مجموعة بيانات يمكن الوصول إليها بسهولة بتنسيق واحد موحد

Data Integration for Toxic Comment Classification: Making More Than 40 Datasets Easily Accessible in One Unified Format

280   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات محددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نبلغ عن تقديمنا إلى المهمة 1 من تحدي جيرفال 2021 - تصنيف التعليق السام.نحقق في طرق مختلفة لتعزيز البيانات التدريبية النادرة لتحسين الأداء النموذجي خارج الرف على مهمة تصنيف سامة للتعليق.للمساعدة في معالجة قيود مجموعة بيانات صغيرة، نستخدم البيانات التي تم إنشاؤها مزخرف بواسطة نموذج GPT-2 الألماني.إن استخدام البيانات الاصطناعية لم تقلع مؤخرا كحل محتمل لبيانات التدريب التدريجي في مجال التصديق في NLP، والنتائج الأولية تعد.ومع ذلك، لم ير نموذجنا تحسنا قياسيا من خلال استخدام البيانات الاصطناعية.نناقش أسباب محتملة لهذا الاكتشاف واستكشاف الأعمال المستقبلية في هذا المجال.
في وسائل التواصل الاجتماعي، يستخدم المستخدمون بشكل متكرر صور صغيرة تسمى الرموز التعبيرية في مشاركاتها. على الرغم من أن استخدام الرموز التعبيرية في النصوص يلعب دورا رئيسيا في أنظمة الاتصالات الحديثة، فقد تم إيلاء اهتمام أقل في مواقعهم في النصوص المعين ة، على الرغم من أن المستخدمين الذين يختارون بعناية ووضع الرموز التعبيرية التي تطابق رسالتها. ستعمل استكشاف مواقع الرموز التعبيرية في النصوص على تعزيز الفهم للعلاقة بين الرموز التعبيرية والنصوص. نقوم بتوسيع مهمة التنبؤ بالملصقات الرموز التعبيرية مع مراعاة معلومات مواقع الرموز التعبيرية، من خلال تعلم موقف الرموز التعبيري في تغريدة الرموز التعبيرية للتنبؤ بميزة الرموز التعبيرية. توضح النتائج أن موقف الرموز التعبيري في النصوص هو فكرة جيدة لتعزيز أداء تنبؤ التسمية الرموز التعبيرية. التقييم البشري يتحقق من صحة موقع emoji مناسب في تغريدة، ومهمةنا المقترحة قادرة على جعل تغريدات أكثر فاخرة وطبيعية. بالإضافة إلى ذلك، النظر في موقف الرموز التعبيري يمكن أن يحسن أداء مهمة الكشف عن المفارقة مقارنة بتنبؤ تسمية الرموز التعبيرية. نبلغ أيضا عن النتائج التجريبية لمجموعة البيانات المعدلة، نظرا لمشكلة البيانات الأصلية للمهمة المشتركة الأولى للتنبؤ بتسمية EMOJI في Semeval2018.
في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز ات لغوية إضافية ثم تم تسليمها في طبقة إضافية؛ومثيرة الطبقات متعدد الطبقات مع كل من أنواع الميزات كمدخلات.عززنا النموذج المحول المدرب مسبقا من خلال إعادة تدريبه مع أكثر من مليون تغريدة وصقله على مجموعة بيانات ألمانية إضافية من مهام مماثلة.تم اتخاذ أنظمة بيرت الألمانية النهائية التي تم ضبطها بشكل نهائي كميزات مدخلات نصية لشبكاتنا العصبية.كانت أفضل النماذج الخاصة بنا في بيانات التحقق من الصحة كانت شبكات عصبية، لكن بيرت الألمانية المعززة المكتسبة مع درجة F1 = 0.5895 تنبؤ أعلى في بيانات الاختبار.
غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.
تتطلب المهام الفرعية لتصنيف النية، مثل التواضع على تحول التوزيع، والتكيف مع مجموعات المستخدمين المعينة والتخصيص، والكشف خارج المجال، ومجموعات بيانات واسعة ومرنة للتجارب والتقييم.نظرا لأن جمع مجموعات البيانات هذه هي الوقت والمستهلك للعمل، نقترح استخدا م أساليب جيل النص لجمع البيانات.يجب تدريب المولد على توليد الكلام التي تنتمي إلى نية معينة.نستكشف مناهضين لتوليد الكلام الموجهين في المهام: في نهج الطلقة الصفرية، يتم تدريب النموذج على توليد الكلام من النوايا المشاهدة ويتم استخدامها أيضا لتوليد الكلام للمحاطة غير المرئية أثناء التدريب.في نهج طلقة واحدة، يتم تقديم النموذج مع كلام واحد من نية الاختبار.نحن نؤدي التقييم التلقائي الشامل والبشري للخصائص الجوهرية لنهج الجيلين.يتم تصنيف سمات البيانات التي تم إنشاؤها من مجموعات الاختبار الأصلية، التي تم جمعها عبر مصادر الحشد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا