ترغب بنشر مسار تعليمي؟ اضغط هنا

لحظر أو عدم حظره: تجارب مع التعلم الآلي للإعلام التعليق الأخبار

To Block or not to Block: Experiments with Machine Learning for News Comment Moderation

252   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اليوم، تتضمن المؤسسات الإعلامية الأخبار بانتظام مع القراء من خلال تمكينهم من التعليق على المقالات الإخبارية.هذا يخلق الحاجة إلى التعليق الاعتدال وإزالة التعليقات غير المسموح بها - وهي مهمة تستغرق وقتا طويلا في كثير من الأحيان أداءها المشرفين البشري.في هذه الورقة، نقترب من مشكلة اعتدال تعليق الأخبار التلقائي كتصنيف للتعليقات في الفئات المحظورة وغير المحظورة.نبني مجموعة بيانات جديدة من تعليقات باللغة الإنجليزية المشروح، وتجربة نقل متصل بالتعليق، وتقييم العديد من نماذج التعلم الآلي على مجموعات بيانات الأخبار الكرواتية والإستونية.اسم الفريق: SuperAdmin؛التحدي: اكتشاف التعليقات المحظورة؛أدوات / نماذج: Brrosloen Bert، أرقى بيرت، 24sata تعليق DataSet، Ekspress تعليق DataSet.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأح كام البشرية محدودة بحجم هذه المجموعات. في هذه الورقة، نؤكد كيف تناقض مقاييس الموثوق بها في الأحكام الإنسانية - على حد علمنا - أكبر مجموعة من الأحكام المبلغ عنها في الأدب. يمكن القول إن تصنيفات الزوجية من أنظمتين هي المهام التقييم الأكثر شيوعا في سيناريوهات البحث أو النشر. أخذ الحكم البشري كمعيار ذهبي، فإننا نحص على ما يقسمه أعلى دقة في التنبؤ بتصنيفات جودة الترجمة لمثل هذا أزواج النظام. علاوة على ذلك، نقوم بتقييم أداء مقاييس مختلفة عبر أزواج ومجال بلغات مختلفة. وأخيرا، نوضح أن الاستخدام الوحيد لبليو يعيق تطوير النماذج المحسنة المؤدية إلى قرارات النشر السيئة. نفرج عن مجموعة من الأحكام الإنسانية الإنسانية على مستوى الجملة 2.3 مليون ل 4380 أنظمة لمزيد من التحليل وتكرار عملنا.
في السنوات الأخيرة، تلقت معالجة الوقت الحرج (المعالجة في الوقت الحقيقي) وتحليل البيانات الكبيرة قدراً كبيراً من الاهتمام. فهناك العديد من المجالات التي يمكن فيها معالجة البيانات في الوقت الفعلي، حيث أن اتخاذ القرارات في الوقت المناسب يستطيع إنقاذ ا لآلاف من الأرواح البشرية، التقليل من مخاطر أرواح البشر والموارد، تعزيز نوعية حياة البشر، تعزيز فرص الربحية، وإدارة الموارد بفعالية. فتأتي هنا هذه الورقة التي تسّلط الضوء على هذا النوع من التطبيقات التحليلية للبيانات الكبيرة في الوقت الحقيقي وتصّنف تلك التطبيقات. بالإضافة إلى ذلك، فإنها تقدم نظرة عامة على البيانات الكبيرة لوصف المعرفة الأساسية في هذا المجال، فضلاً عن علاقة البيانات الكبيرة بتعلم الآلة وكيفية ربطهم سويًة لتحسين الأداء ورفع سويته.
تعد اعتدال تعليقات القارئ مشكلة كبيرة لمنصات الأخبار عبر الإنترنت.هنا، نقوم بتجربة النماذج للاعتدال التلقائي، باستخدام مجموعة بيانات من التعليقات من جريدة كرواتية شعبية.يوضح تحليلنا أنه في حين أن التعليقات التي تنتهك القواعد الاعتدالية تشترك في الغال ب على ميزات اللغوية والمواضيعية المشتركة، يختلف محتواها عبر أقسام الجريدة المختلفة.لذلك، نجعل نماذجنا تدرك موضوعنا، دمج الميزات الدلالية من نموذج موضوع في قرار التصنيف.تظهر نتائجنا أن معلومات الموضوع تعمل على تحسين أداء النموذج، ويزيد من ثقتها في المخرجات الصحيحة، وتساعدنا على فهم مخرجات النموذج.
أظهر العمل الحديث أن نماذج لغة التدريب المسبق التدريبية يمكن أن تعزز الأداء عند التكيف إلى مجال جديد. ومع ذلك، فإن التكاليف المرتبطة بالتدريب المسبق رفع سؤال مهم: بالنظر إلى ميزانية ثابتة، ما هي الخطوات التي يجب أن يستغرق ممارس NLP لتعظيم الأداء؟ في هذه الورقة، نقوم بدراسة تكيف المجال بموجب قيود الموازنة، ونهجها كمشكلة اختيار العملاء بين شروح البيانات والتدريب المسبق. على وجه التحديد، نقيس تكلفة التوضيحية لثلاث مجموعات بيانات نصية إجرائية وتكلفة ما قبل التدريب من ثلاث نماذج لغوية داخل المجال. ثم نقيم فائدة مجموعات مختلفة من التدريب المسبق والتشريح بالبيانات بموجب قيود ميزانية متفاوتة لتقييم الاستراتيجية التي تعمل بشكل أفضل. نجد أنه بالنسبة للميزانيات الصغيرة، فإن إنفاق جميع الأموال على التوضيحية يؤدي إلى أفضل أداء؛ بمجرد أن تصبح الميزانية كبيرة بما فيه الكفاية، يعمل مزيج من شرح البيانات والتدريب المسبق في المجال على النحو الأمثل. لذلك نقترح أن تكون شروط التعريف الخاصة بالبيانات الخاصة بمهارات العمل يجب أن تكون جزءا من استراتيجية اقتصادية عند تكييف نموذج NLP إلى مجال جديد.
حققت نماذج تمثيل اللغة المدربة مؤخرا مثل بيرت وروبرتا نتائج مهمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإنها تتطلب تكلفة حسابية عالية للغاية.يعد تعلم المناهج الدراسية (CL) أحد الحلول المحتملة لتخفيف هذه المشكلة.CL هي استراتيجي ة تدريبية حيث يتم إعطاء عينات التدريب للنماذج بأمر هادف بدلا من أخذ العينات العشوائية.في هذا العمل، نقترح طريقة CL جديدة تدريجيا، مما يزيد تدريجيا من حجم نص المدخلات لتدريب آلية الانتباه الذاتي في بيرت ومتغيراته باستخدام الحد الأقصى للحجم الدفعة المتوفرة.تظهر التجارب في إعدادات الموارد المنخفضة أن نهجنا يفوق أن يؤدي إلى خط الأساس من حيث سرعة التقارب والأداء النهائي على مهام المصب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا