ترغب بنشر مسار تعليمي؟ اضغط هنا

تقديم CAD: DataSet الإساءة السياقية

Introducing CAD: the Contextual Abuse Dataset

368   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن للإيذاء عبر الإنترنت إلحاق الأذى بالمستخدمين والمجتمعات، مما يجعل المساحات عبر الإنترنت غير آمنة وسامة.غالبا ما يتم احتساب التقدم المحرز في الكشف عن المحتوى المسيء والتصنيف تلقائيا بسبب عدم وجود مجموعات بيانات عالية الجودة ومفصلة. نقدم مجموعة بيانات جديدة من إدخالات Reddit الإنجليزية في المقام الأول والتي تعالج عدة قيود على العمل السابق.يحتوي ذلك (1) على ست فئات أساسية مميزة من الناحية الناحية الفنية وكذلك الفئات الثانوية، (2) يحتوي على تسميات مشروحة في سياق مؤشر ترابط المحادثة، (3) تحتوي (3) على المناولة و (4) تستخدم عملية تحكم مجموعة مدفوعة من الخبراء عاليةالتوضيحية الجودة.نبلغ عن العديد من النماذج الأساسية لقياس عمل الباحثين في المستقبل.البيانات الموحدة والمبادئ التوجيهية التوضيحية والنماذج والرمز متاحة بحرية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأر قام اللاتينية بدلا من تلك العربية.في هذه الورقة، نقدم مجموعة بيانات تونسية تونسية تونسية كبيرة ومقرها شائعة مخصصة لتحليل المعنويات.تتكون DataSet من إجمالي التعليقات 100K (عن الأفلام والسياسة والرياضة، إلخ) المشروح يدويا من قبل المتكلمين الأصليين التونسيين على أنها إيجابية وسلبية ومحايدة.نقوم بتقييم مجموعة بياناتنا حول مهمة تحليل المعنويات باستخدام تمثيلات التشفير الثنائية من المحولات (Bert) كطراز لغة سياقي في إصدارها متعدد اللغات (MBERT) كتقنية تضمين، ثم دمج MBERT مع الشبكة العصبية التنافسية (CNN) كمعقل.DataSet متاحة للجمهور.
نقدم مجموعة اختبار Swewinogender، مجموعة بيانات تشخيصية لقياس التحيز بين الجنسين في دقة Aquerence.وهي على غرارها بعد المعيار الإنجليزي الإنجليزي، ويتم إصدارها مع إحصاءات مرجعية بشأن توزيع الرجال والنساء بين المهن والشكام بين الجنسين والاحتلال في مواد الشمال الحديثة.تناقش الورقة تصميم وإنشاء مجموعة البيانات، ويعرض تحقيقا صغيرا في الإحصاءات التكميلية.
تقدم هذه الدراسة نسخة مخصبة من DataSet E2E، وهي واحدة من موارد اللغة الأكثر شعبية ل NLG البيانات إلى النص.نحن نستخلص من التمثيل الوسيط لمهام خطوط الأنابيب الشعبية مثل ترتيب الخطاب، وهيكال نصية، وتعليم التعبير وإشارة التعبير،، مما يتيح الباحثين على تط وير وتقييم أنظمة خطوط أنابيب البيانات إلى النص بسرعة.يتم استخراج التمثيل الوسيط من خلال محاذاة التمثيلات غير اللغوية والنصية من خلال عملية تسمى Delexicalization، والتي تتألف في استبدال الإدخال بإحالة التعبيرات إلى الكيانات / السمات مع العناصر النائبة.مجموعة البيانات المخصبة متاحة للجمهور.
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا لغطاء استراتيجيات تمثيل المستندات ونماذج اللغة من TF-IDF إلى Bert.تزود هذه الأنشطة الطلاب بتجربة عملية مستهدفة نحو حالات الاستخدام المشترك، وإدخال مكونات أساسية من سير العمل NLP لمجموعة واسعة من التطبيقات.
تحسنت جودة الترجمات التي تم إنشاؤها بواسطة أنظمة الترجمة الآلية (MT) بشكل كبير خلال السنوات، لكننا لا نزال بعيدا للحصول على ترجمات عالية الجودة التلقائية بالكامل.لتوليدهم والمترجمين يستفيدون من أدوات الترجمة المساعدة بمساعدة الكمبيوتر وبينها نجد أنظم ة الترجمة الآلية التفاعلية (IPMT).في هذه الورقة، نستخدم ملاحظات الحساب على أنها المعلومات الرئيسية والوحيدة اللازمة لإنشاء تنبؤات جديدة تصحح الترجمات السابقة.يقلل تطبيق ملاحظات الحساب بشكل كبير من عدد الكلمات التي يحتاجها المترجم إلى كتابة جلسة IPMT.في الختام واستخدام هذه التقنية يوفر وقتا مفيدا وجهده للمترجمين وتحسين أدائها مع التقدم المستقبلي في MT وهكذا نوصي بتطبيقها في أنظمة IPMT الفعلية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا