ترغب بنشر مسار تعليمي؟ اضغط هنا

اكتشاف منتفخ على Wikipedia الإنجليزية

Detection of Puffery on the English Wikipedia

348   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على ويكيبيديا، موسوعة من الجماعة الجماعية عبر الإنترنت، ينفذ المتطوعون سياسات التحرير الموسوعة.لقد ألهمت سياسة ويكيبيديا بشأن الحفاظ على وجهة نظر محايدة البحوث الحديثة على اكتشاف التحيز، بما في ذلك كلمات الاصوات "والتحريز".بعد حتى الآن، تم إجراء القليل من العمل على تحديد البخاخ، "العبارات الموجودة بشكل مفرط دون مصدر يمكن التحقق منه.نوضح أن جمع البيانات التدريبية لهذه المهمة يتطلب بعض العناية، وبناء مجموعة بيانات عن طريق الجمع بين التعليقات التوضيحية لتحرير ويكيبيديا وتقنيات استرجاع المعلومات.نقارن العديد من النهج التي توقعت من البخار وتحقيق 0.963 F1 من خلال دمج ميزات الاقتباس في نموذج روبرتا.أخيرا، نوضح كيفية دمج نموذجنا مع البنية التحتية العامة في ويكيبيديا لإعادة مجتمع محرر ويكيبيديا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ساهم تقدم تقنية الويب والمعلومات في النمو السريع للمكتبات الرقمية وأدوات ترجمة الآلات التلقائية والتي تقوم بسهولة بترجمة النصوص من لغة إلى أخرى. وقد زادت هذه المحتوى في الوصول إلى لغات مختلفة، مما يؤدي إلى أداء الانتحال المترجم بسهولة، يشار إليها باس م الانتحال عبر اللغة ". التعرف على الانتحال بين النصوص بلغات مختلفة هو أكثر تحديا من تحديد الانتحال داخل وجعة مكتوبة بنفس اللغة. تقترح هذه الورقة تقنية جديدة لتعزيز اكتشاف الانتحال باللغة الإنجليزية والعربية على مستوى الجملة. تستند هذه التقنية إلى استخراج ميزة دلالية ونقصية باستخدام ترتيب Word و Word AdgetDing و MIGNIMENT مع ترميزات متعددة اللغات. يتم بعد ذلك استخدام هذه الميزات ومجمديها مع خوارزميات مختلفة لتعلم الآلات (ML) من أجل المساعدة في تصنيف الجمل كإخلاء إما مكسوين أو غير متسائل. تم نشر النهج المقترح وتقييمه باستخدام مجموعات البيانات المقدمة في Semeval-2017. يوضح تحليل البيانات التجريبية المستخدمة في استخدام الميزات المستخرجة ومجموعاتها مع مختلف منصات ML، تحقق نتائج واعدة.
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.
كان هناك طلب متزايد لتطوير أنظمة التدريب اللغوية بمساعدة الكمبيوتر (النقص)، والتي يمكن أن توفر ملاحظات حول سوء الأخطاء وتسهيل المتعلمين اللغة الثانية (L2) لتحسين إجادتها الناطقة من خلال الممارسة المتكررة. نظرا لنقص الكلام غير الأصلي لتدريب الوحدة الن مطية للتعرف على الكلام التلقائي (ASR) من نظام النقيب، فإن أداء الكشف عن الأخطاء السخطية المقابلة غالبا ما يتأثر بشكل غالبا بواسطة unffect ASR. وإذ تدرك هذه الأهمية، فإننا في هذه الورقة طرحت طريقة اكتشاف أخطاء أخطاء في مرحلتين. في المرحلة الأولى، تتم معالجة الخطاب الذي ينطقه متعلم L2 من خلال وحدة ASR المناسبة لإنتاج فرضيات تسلسل الهاتف N-Best. في المرحلة الثانية، يتم تغذية هذه الفرضيات في نموذج النطق الذي يسعى إلى التنبؤ بأمانة بفرض رسوم تسلسل الهاتف الذي هو على الأرجح واضحا من قبل المتعلم، وذلك لتحسين أداء اكتشاف أخطاء أخطاء. أجرت التجارب التجريبية مجموعة بيانات قياسية باللغة الإنجليزية تأكيد فائدة طريقتنا.
Nowadays social-psychological variables , like attitudes and motivation, gender, aptitude, etc. have been established as influential factors in the process of learning a foreign language . Therefore, this research aims at measuring the attitudes of f ourth-year students at the Department of English towards learning English

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا