ترغب بنشر مسار تعليمي؟ اضغط هنا

WikitalkEdit: مجموعة بيانات لسلوكيات تحرير النمذجة على ويكيبيديا

WikiTalkEdit: A Dataset for modeling Editors' behaviors on Wikipedia

245   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الدراسة وتحليلات WikitalkEdit وديجمات من المحادثات وتعديل التواريخ من ويكيبيديا، للبحث في التعاون عبر الإنترنت ونمذجة المحادثة. تضم DataSet ثلاث مرات حوار من صفحات الحديث Wikipedia، وتحرير الإجراءات على المقالات المقابلة التي تتم مناقشتها. نظرا لكيفية دعم البيانات الفهم الكلاسيكي للمطابقة النمط، حيث تتوقع العاطفة الإيجابية واستخدام الضمائر ذات الشخص الأول تغييرا عاطفيا إيجابي في مساهم ويكيبيديا. ومع ذلك، فإنهم لا يتوقعون سلوك التحرير. من ناحية أخرى، فإن ردود الفعل التي تم استدعاء الوكلاء والنقد، والمراجع إلى قواعد المجتمع في ويكيبيديا، من المرجح أن تقنع المساهم في أداء التعديلات ولكنها أقل عرضة للتأدي إلى مشاعر إيجابية. لقد قمنا بتطوير مصنفات أساسية مدربة على ميزات روبرتا مدربة مسبقا والتي يمكن أن تتنبأ بالتغيير التحريري بدرجة F1 من .54، بالمقارنة مع درجة F1 من .66 للتنبؤ بالتغيير العاطفي. كما يتم توفير تحليل تشخيصي للأخطاء الاستمرارية. نستنتج مع التطبيقات والتوصيات المحتملة للعمل في المستقبل. تتوفر DataSet علنا ​​لمجتمع البحث في https://github.com/kj2013/wikitalkedit/.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.
تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا ال موضوعية حيث، لكل وثيقة ونوايا (E.G.، Weather ")، تكفي موجز واحد لجميع المستخدمين. لا توجد مجموعات البيانات، ومع ذلك، بالنسبة للمؤلفة الذاتية (E.G.، الأماكن المثيرة للاهتمام ") حيث سيقدم المستخدمون المختلفون ملخصات مختلفة. نحن نقدم العانة، أول مجموعة البيانات لتقييم أنظمة استخراج الملخص الذاتي. تحتوي STALUME على ثلاثة أفراد (وثيقة، نية، ملخص) ثلاثة توائم أكثر من 48 صفحة ويكيبيديا، مع عشرة نوبة ذاتي اختلاف ذاتي، والتي توفرها 103 فردا على الترك الميكانيكي. نوضح إحصائيا أن النوايا في SARMENT تختلف بشكل منهجي في الذاتية. للإشارة إلى فائدة SUTTUME، نستكشف مجموعة من خوارزميات أساسية لتلخيص استخراجي ذاتي وإظهار أن (I) كما هو متوقع، فإن النهج القائمة على سبيل المثال، من الأفضل أن تلتقط النوايا ذاتية من تلك القائمة على الاستعلام، و (2) هناك نطاق واسع لتحسينه خوارزميات الأساس، وبالتالي تحفز المزيد من الأبحاث حول هذه المشكلة الصعبة.
يستخدم الأشخاص من المنتديات عبر الإنترنت إما أن نبحث عن معلومات أو للمساهمة به. بسبب شعبيتها المتنامية، تم إنشاء بعض المنتديات عبر الإنترنت خصيصا لتوفير الدعم والمساعدة والآراء للأشخاص الذين يعانون من مرض عقلي. الاكتئاب هو واحد من الأمراض النفسية الأ كثر شيوعا في جميع أنحاء العالم. يتواصل الأشخاص المزيد من المنتديات عبر الإنترنت للعثور على إجابات لأمراضهم النفسية. ومع ذلك، لا توجد آلية لقياس شدة الاكتئاب في كل وظيفة وإعطاء أهمية أعلى لأولئك الذين يشخصون بالاكتئاب بشدة. على الرغم من أن العديد من الأبحاث التي تستند إلى بيانات المنتدى عبر الإنترنت وتحديد الاكتئاب قد أجريت، نادرا ما يتم استكشاف شدة الاكتئاب. بالإضافة إلى ذلك، فإن غياب مجموعات البيانات سوف تنموي تطوير إجراءات تشخيصية جديدة للممارسين. من هذه الدراسة، نقدم مجموعة بيانات لدعم البحوث حول تقييم شدة الاكتئاب. النهج الحسابي لقياس عملية تلقائية، خطورة محددة من الاكتئاب هنا نهج جديد تماما. ومع ذلك، هناك حاجة إلى ذلك، هناك حاجة إلى هذا القياس الموضعي للاكتئاب في مشاركات المنتدى عبر الإنترنت لضمان موازين القياس المستخدمة في بحثنا يجتمع مع القواعد المتوقعة للبحث العلمي.
هناك نقص في شورا عالي الجودة للغات الجنوبية السلافية. مثل هذه الشركات مفيدة لعلماء الكمبيوتر والباحثين في العلوم الاجتماعية والعلوم الإنسانية على حد سواء، مع التركيز على العديد من تطبيقات اللغات والمحتوى وتطبيقات معالجة اللغة الطبيعية. تقدم هذه الورق ة سيرجال سير عمل للتعدين محتوى ويكيبيديا ومعالجته في كوربورا معالجته اللغوي، المطبق على البوسنة والكبلانية والكرواتية والكرواتية والصلبيون والرويبو الكرواتية والسلوفانية والسلوفينية. نحن نجعل سبعة كوربورا متاحة للجمهور. نعرض هذه كوربورا من خلال مقارنة محتوى ويكيبيديا الأساسي، افتراضنا أن محتوى ويكيبيداس يعكس المصالح على نطاق واسع في موضوعات مختلفة في هذه الدول البلقان. نقوم بإجراء مقارنة المحتوى باستخدام خوارزميات نمذجة الموضوع ومقارنات التوزيع المختلفة. تظهر النتائج أن جميع ويكيبيداس متشابهة موضعيا تماما، مع كلها تغطي الفن والثقافة والأدب، في حين أنها تحتوي على اختلافات في الجغرافيا والسياسة والتاريخ والعلوم.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا