بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

تكامل البيانات لتصنيف التعليق السام: جعل أكثر من 40 مجموعة بيانات يمكن الوصول إليها بسهولة بتنسيق واحد موحد

Data Integration for Toxic Comment Classification: Making More Than 40 Datasets Easily Accessible in One Unified Format

643 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

toxic comment classification datasets easily accessible easily accessible تصنيف سام التعليق مجموعات البيانات بسهولة يمكن الوصول إليها بسهولة صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

مع صعود البحث عن تصنيف التعليق السام، تم إصدار المزيد والمزيد من البيانات المشروحة. أدت مجموعة واسعة من المهمة (لغات مختلفة، وعمليات وصفات ومخططات مختلفة) إلى كمية كبيرة من مجموعات البيانات غير المتجانسة التي يمكن استخدامها للتدريب واختبار إعدادات محددة للغاية. على الرغم من الجهود الأخيرة لإنشاء صفحات ويب توفر نظرة عامة، فإن معظم المنشورات لا تزال تستخدم فقط مجموعة بيانات واحدة. لا يتم تخزينها في قاعدة بيانات مركزية واحدة، وتأتي في العديد من تنسيقات البيانات المختلفة، ومن الصعب تفسير ملصقات الفئة وكيفية إعادة استخدام هذه الملصقات في مشاريع أخرى. للتغلب على هذه المشكلات، نقدم مجموعة من أكثر من ثلاثين بيانات البيانات في شكل أداة برمجية تقوم بتجميع تنزيل البيانات ومعالجتها وتعرضها بتنسيق بيانات موحد يوفر أيضا تعيين من تسميات الفئة المتوافقة. ميزة أخرى من هذه الأداة هي أنها توفر نظرة عامة على خصائص مجموعات البيانات المتاحة، مثل اللغات المختلفة والمنصات والملصقات الفئة لتسهيل تحديد بيانات التدريب والاختبار المناسبة.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

929 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نبلغ عن تقديمنا إلى المهمة 1 من تحدي جيرفال 2021 - تصنيف التعليق السام.نحقق في طرق مختلفة لتعزيز البيانات التدريبية النادرة لتحسين الأداء النموذجي خارج الرف على مهمة تصنيف سامة للتعليق.للمساعدة في معالجة قيود مجموعة بيانات صغيرة، نستخدم البيانات التي تم إنشاؤها مزخرف بواسطة نموذج GPT-2 الألماني.إن استخدام البيانات الاصطناعية لم تقلع مؤخرا كحل محتمل لبيانات التدريب التدريجي في مجال التصديق في NLP، والنتائج الأولية تعد.ومع ذلك، لم ير نموذجنا تحسنا قياسيا من خلال استخدام البيانات الاصطناعية.نناقش أسباب محتملة لهذا الاكتشاف واستكشاف الأعمال المستقبلية في هذا المجال.

تعليق سام صناعة حمض الفوسفور

جعل تويتك أكثر يتوهم: إدراج الرموز التعبيرية للنصوص

719 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في وسائل التواصل الاجتماعي، يستخدم المستخدمون بشكل متكرر صور صغيرة تسمى الرموز التعبيرية في مشاركاتها. على الرغم من أن استخدام الرموز التعبيرية في النصوص يلعب دورا رئيسيا في أنظمة الاتصالات الحديثة، فقد تم إيلاء اهتمام أقل في مواقعهم في النصوص المعين ة، على الرغم من أن المستخدمين الذين يختارون بعناية ووضع الرموز التعبيرية التي تطابق رسالتها. ستعمل استكشاف مواقع الرموز التعبيرية في النصوص على تعزيز الفهم للعلاقة بين الرموز التعبيرية والنصوص. نقوم بتوسيع مهمة التنبؤ بالملصقات الرموز التعبيرية مع مراعاة معلومات مواقع الرموز التعبيرية، من خلال تعلم موقف الرموز التعبيري في تغريدة الرموز التعبيرية للتنبؤ بميزة الرموز التعبيرية. توضح النتائج أن موقف الرموز التعبيري في النصوص هو فكرة جيدة لتعزيز أداء تنبؤ التسمية الرموز التعبيرية. التقييم البشري يتحقق من صحة موقع emoji مناسب في تغريدة، ومهمةنا المقترحة قادرة على جعل تغريدات أكثر فاخرة وطبيعية. بالإضافة إلى ذلك، النظر في موقف الرموز التعبيري يمكن أن يحسن أداء مهمة الكشف عن المفارقة مقارنة بتنبؤ تسمية الرموز التعبيرية. نبلغ أيضا عن النتائج التجريبية لمجموعة البيانات المعدلة، نظرا لمشكلة البيانات الأصلية للمهمة المشتركة الأولى للتنبؤ بتسمية EMOJI في Semeval2018.

emoji insertion emoji label emoji إدراج الرموز التعبيرية emoji label. الرموز التعبيرية صناعة حمض الفوسفور المزيد..

السموم في Germeval 2021: تصنيف سام التعليق

700 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز ات لغوية إضافية ثم تم تسليمها في طبقة إضافية؛ومثيرة الطبقات متعدد الطبقات مع كل من أنواع الميزات كمدخلات.عززنا النموذج المحول المدرب مسبقا من خلال إعادة تدريبه مع أكثر من مليون تغريدة وصقله على مجموعة بيانات ألمانية إضافية من مهام مماثلة.تم اتخاذ أنظمة بيرت الألمانية النهائية التي تم ضبطها بشكل نهائي كميزات مدخلات نصية لشبكاتنا العصبية.كانت أفضل النماذج الخاصة بنا في بيانات التحقق من الصحة كانت شبكات عصبية، لكن بيرت الألمانية المعززة المكتسبة مع درجة F1 = 0.5895 تنبؤ أعلى في بيانات الاختبار.

تحكم اللغة المدربة مسبقا comment classification task toxic comment مهام تصنيف التعليق تعليق سام صناعة حمض الفوسفور

طرق debiasing في فهم اللغة الطبيعية تجعل التحيز أكثر قابلية للوصول

1067 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.

understanding make bias language understanding make فهم جعل التحيز صناعة حمض الفوسفور

مثال واحد يمكن أن يحسن توليد البيانات صفر

847 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تتطلب المهام الفرعية لتصنيف النية، مثل التواضع على تحول التوزيع، والتكيف مع مجموعات المستخدمين المعينة والتخصيص، والكشف خارج المجال، ومجموعات بيانات واسعة ومرنة للتجارب والتقييم.نظرا لأن جمع مجموعات البيانات هذه هي الوقت والمستهلك للعمل، نقترح استخدا م أساليب جيل النص لجمع البيانات.يجب تدريب المولد على توليد الكلام التي تنتمي إلى نية معينة.نستكشف مناهضين لتوليد الكلام الموجهين في المهام: في نهج الطلقة الصفرية، يتم تدريب النموذج على توليد الكلام من النوايا المشاهدة ويتم استخدامها أيضا لتوليد الكلام للمحاطة غير المرئية أثناء التدريب.في نهج طلقة واحدة، يتم تقديم النموذج مع كلام واحد من نية الاختبار.نحن نؤدي التقييم التلقائي الشامل والبشري للخصائص الجوهرية لنهج الجيلين.يتم تصنيف سمات البيانات التي تم إنشاؤها من مجموعات الاختبار الأصلية، التي تم جمعها عبر مصادر الحشد.

improve zero-shot data improve zero-shot generate utterances تحسين البيانات الصفرية تحسين صفر النار توليد الكلام صناعة حمض الفوسفور المزيد..

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

2107 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الشھباء الخاصة

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

تكامل البيانات لتصنيف التعليق السام: جعل أكثر من 40 مجموعة بيانات يمكن الوصول إليها بسهولة بتنسيق واحد موحد

Data Integration for Toxic Comment Classification: Making More Than 40 Datasets Easily Accessible in One Unified Format

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة