ترغب بنشر مسار تعليمي؟ اضغط هنا

ليست كل التعليقات متساوية: رؤى في التعليق الاعتدال من نموذج علم الموضوع

Not All Comments Are Equal: Insights into Comment Moderation from a Topic-Aware Model

329   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغالب على ميزات اللغوية والمواضيعية المشتركة، يختلف محتواها عبر أقسام الجريدة المختلفة.لذلك، نجعل نماذجنا تدرك موضوعنا، دمج الميزات الدلالية من نموذج موضوع في قرار التصنيف.تظهر نتائجنا أن معلومات الموضوع تعمل على تحسين أداء النموذج، ويزيد من ثقتها في المخرجات الصحيحة، وتساعدنا على فهم مخرجات النموذج.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تنطوي تصنيف الحبيبات الجميلة على التعامل مع مجموعات البيانات مع عدد أكبر من الفصول مع الاختلافات الدقيقة بينهما.إن توجيه النموذج إلى التركيز على أبعاد التفريق بين هذه الفئات القابلة للتصريفية بشكل شائع هو مفتاح تحسين الأداء في مهام الحبيبات الجميلة.ف ي هذا العمل، نقوم بتحليل ضبط النماذج الصعبة المتناقضة من النماذج المدربة مسبقا على مهام تصنيف نصية جيدة الحجم، وتصنيف العاطفة وتحليل المعنويات.قمنا بتضمين علاقات فئة على تكيفا في وظيفة موضوعية مناقصة للمساعدة في وزن الإيجابيات والسلبيات بشكل مختلف، وعلى وجه الخصوص، ترجغ السلبيات المربكة عن كثب أكثر من أمثلة سلبية أقل مماثلة.نجد أن الخسارة على علم التسمية التي تدركها تتفوق على الأساليب المتعاقبة السابقة، في وجود عدد أكبر و / أو فئات أكبر من الفئات القابلة للتصريف، وتساعد النماذج على إنتاج توزيعات الإخراج التي يتم تمييزها أكثر.
تم اقتراح تغييرات مختلفة لإلقاء تحليل التبعية كوسيلة تسلسل وحل المهمة على النحو التالي: (1) مشكلة اختيار الرأس، (II) العثور على تمثيل للأقواس الرمز المميز كسلاسل قوس، أو (3) ربط تسلسل انتقال جزئي من أالمحلل المحلل القائم على الانتقال إلى الكلمات.ومع ذلك، لا يوجد تفاهم ضئيل حول كيفية التصرف هذه الخطية في إعدادات الموارد المنخفضة.هنا، ندرس أولا كفاءة البيانات الخاصة بهم، محاكاة الإعدادات المقيدة بالبيانات من مجموعة متنوعة من Treebanks Result Resource.ثانيا، نختبر ما إذا كانت هذه الاختلافات تظهر في إعدادات الموارد المنخفضة حقا.تظهر النتائج أن ترميزات اختيار الرأس أكثر كفاءة في البيانات وأداء أفضل في إطار مثالي (ذهب)، ولكن هذه الميزة تختفي إلى حد كبير لصالح التنسيقات القوسين عندما يشبه الإعداد قيد التشغيل تكوين الموارد المنخفضة في العالم الحقيقي.
اليوم، تتضمن المؤسسات الإعلامية الأخبار بانتظام مع القراء من خلال تمكينهم من التعليق على المقالات الإخبارية.هذا يخلق الحاجة إلى التعليق الاعتدال وإزالة التعليقات غير المسموح بها - وهي مهمة تستغرق وقتا طويلا في كثير من الأحيان أداءها المشرفين البشري.ف ي هذه الورقة، نقترب من مشكلة اعتدال تعليق الأخبار التلقائي كتصنيف للتعليقات في الفئات المحظورة وغير المحظورة.نبني مجموعة بيانات جديدة من تعليقات باللغة الإنجليزية المشروح، وتجربة نقل متصل بالتعليق، وتقييم العديد من نماذج التعلم الآلي على مجموعات بيانات الأخبار الكرواتية والإستونية.اسم الفريق: SuperAdmin؛التحدي: اكتشاف التعليقات المحظورة؛أدوات / نماذج: Brrosloen Bert، أرقى بيرت، 24sata تعليق DataSet، Ekspress تعليق DataSet.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
عند تطوير نماذج الموضوع، سؤال مهم يجب طرحه هو: ما مدى عمل هذا النموذج في إعداد تطبيقي؟ نظرا لأن تقييم الأداء القياسي لتفسير الترجمة الشفوية يستخدم التدابير الآلية على غرار اختبارات التقييم البشري المختلف من الاستخدام التطبيقي، لا تزال تعميم هذه النما ذج في سؤال. في هذه الورقة، نجري مسألة الصلاحية في تقييم النموذج الموضوعي وتقييم كيفية اتخاذ تدابير التماسك بالفمية للمجموعات المتخصصة المستخدمة في إعداد تطبيقي. أبلغ عن الأدب، ونقترح أربع فهمات من الترجمة الشفوية. نقيم هذه استخدام إطار تجريبي جديد يعكس الإعدادات التطبيقية المتنوعة، بما في ذلك التقييمات البشرية باستخدام وضع العلامات المفتوحة، نموذجية للبحث التطبيقي. تظهر هذه التقييمات أنه بالنسبة لبعض المجموعات المتخصصة، قد لا تؤدي تدابير التماسك القياسية إلى إبلاغ طراز الموضوع الأكثر ملاءمة أو عدد الأمثل من الموضوعات، ويتم الطعن في طرق التحقق من صحة أداء الترجمة الترجمة الشاملة كوسيلة لتأكيد جودة النموذج في غياب بيانات الحقيقة الأرضية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا