على ويكيبيديا، موسوعة من الجماعة الجماعية عبر الإنترنت، ينفذ المتطوعون سياسات التحرير الموسوعة.لقد ألهمت سياسة ويكيبيديا بشأن الحفاظ على وجهة نظر محايدة البحوث الحديثة على اكتشاف التحيز، بما في ذلك كلمات الاصوات "والتحريز".بعد حتى الآن، تم إجراء القل
يل من العمل على تحديد البخاخ، "العبارات الموجودة بشكل مفرط دون مصدر يمكن التحقق منه.نوضح أن جمع البيانات التدريبية لهذه المهمة يتطلب بعض العناية، وبناء مجموعة بيانات عن طريق الجمع بين التعليقات التوضيحية لتحرير ويكيبيديا وتقنيات استرجاع المعلومات.نقارن العديد من النهج التي توقعت من البخار وتحقيق 0.963 F1 من خلال دمج ميزات الاقتباس في نموذج روبرتا.أخيرا، نوضح كيفية دمج نموذجنا مع البنية التحتية العامة في ويكيبيديا لإعادة مجتمع محرر ويكيبيديا.
يمكن أن تسهم التحيزات المحتملة بين الجنسين الموجودة في محتوى ويكيبيديا في السلوكيات المتحيزة في مجموعة متنوعة من أنظمة NLP المصب.ومع ذلك، فإن الجهود المبذولة لفهم عدم المساواة في تصوير النساء والرجال تحدث في ويكيبيديا ركزت حتى الآن فقط على السيرة الذ
اتية *، مما يترك سؤالا عن عدد المرات التي تحدث فيها مثل هذه الأنماط الضارة في مواضيع أخرى.في هذه الورقة، نحقق في عدم التباين المرتبطة بنوع الجنس في عناوين ويكيبيديا من * جميع المجالات *.نقوم بتقييم أنه لمدة نصف المقالات المرتبطة بنوع الجنس، أي مقالات مع كلمات مثل * المرأة * أو * ذكر * في ألقابه، نظيرات متناظرة تصف نفس مفهوم الجنس الآخر (وبشكل بوضوح قائلا في عناوينهم)وبعدمن بين القضايا المعالجة المتبقية، فإن الغالبية العظمى من المقالات تتعلق بالمشكلات الرياضية والاجتماعية ذات الصلة.نحن نقدم نظرة ثاقبة حول كيفية التأثير على هذه عدم التماثل في مكونات ويكيبيديا الأخرى واقتراح الخطوات نحو تقليل تواتر الأنماط المرصودة.
تقدم هذه الورقة مجموعة من التجارب لتقييم ومقارنتها بين أداء استخدام نماذج CBOW Word2VEC و Lemma2vec للغموض باللغة العربية في السياق (WIC) دون استخدام مخزونات الإحساس أو Asbeddings المعنى.كجزء من المهمة المشتركة Semeval-2021 2 على Devambiguation WIC،
استخدمنا DEV.AR-AR-ARSET (أزواج الجملة 2K) لتحديد ما إذا كانت كلمتين في زوج جملة معينة تحمل نفس المعنى.استخدمنا نماذج Word2vec: Wiki-cbow، وهو نموذج مدرب مسبقا على Wikipedia العرب، ونموذج آخر تدربنا على كورسا عربية كبيرة من حوالي 3 مليارات رموز.كما تم بناء نماذج LEMMA2VEC بناء على نماذج Word2vec.بعد ذلك تم استخدام كل من النماذج الأربعة في مهمة Disambiguation WIC، ثم يتم تقييمها على DataSet Semeval-2021 Test.ar-Ar-Ar.في النهاية، أبلغنا عن أداء النماذج المختلفة ومقارنتها بين استخدام النماذج القائمة على Lemma ومقرها الكلمات.
أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل،
نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.
نطلق سراح Foodwice (FM2 لفترة قصيرة)، وهي مجموعة بيانات كبيرة من أزواج الاستلام الصعبة التي تم جمعها من خلال لعبة متعة متعددة اللاعبين.تشجع Gameification على الأمثلة العدائية، وخفضت بشكل كبير عدد الأمثلة التي يمكن حلها باستخدام اختصارات "مقارنة بمشار
ات البيانات الاستقالة الأخرى.يتم عرض اللاعبين بمهامين.تطلب المهمة الأولى من اللاعب كتابة مطالبة معقولة بناء على الأدلة من صفحة ويكيبيديا.والثاني يظهر اثنين من المطالبات المعقولة التي كتبها لاعبين آخرون، واحدة منها خاطئة، والهدف هو تحديد الأمر قبل أن ينفد الوقت.يدفع اللاعبون "" لرؤية القرائن المستردة من مجموعة الأدلة: كلما زاد عدد الأدلة على احتياجات اللاعب، فإن المطالبة الصعبة.تؤدي اللعبة - اللعب بين اللاعبين الدوافع إلى استراتيجيات متنوعة لصياغة المطالبات، مثل الاستدلال الزمني وتحويل الأدلة غير المرتبطة، ونتائج بيانات عالية الجودة لمهام استرجاع الأدلة والأدلة.نحن نفتح المصدر DataSet ورمز اللعبة.
نلاحظ في الآونة الأخيرة الانتشار الهائل لأدوات التعلم الإلكتروني ( )E-Learningومنها المحاضرات التعليمية
التي تعد جزء مهم منها، وهذه المحاضرات يتم تجميعها في المواقع الإلكترونية بناءا على العنوان الذي تحمله
على الرغم من احتواءها على مواضيع مختلفة في
مجالات متعددة وبالتالي عندما يتم البحث عن هذه
المحاضرات بكلمات معينة يتم عرض المحاضرات ذات العناوين القريبة والمشابهة لجملة البحث ولكن هذه
ليست النتيجة المطلوبة، ولذلك وانطلاقا من هذه المشكلة تم اقتراح طريقة لتصنيف هذه المحاضرات بناء على
المواضيع التي تحويها وليس فقط على عناوينها وعمل عنقدة لها اعتمادا على هذه المواضيع.
تعتمد هذه الطريقة على الترجمة المرفقة ( )captionsمع الفيديوهات التعليمية في عملية استخراج المواضيع
ومن ثم عنقدتها، ومن جهة أخرى تم الاعتماد على مقالات من موقع Wikipediaوذلك بهدف تحديد وتعريف
كل عنقود من العناقيد ومن ثم حساب التشابهات بين المواضيع المعبرة عن كل محاضرة مع مراكز العناقيد،
وبعد ذلك تم تطبيق عنقدة ضبابية بناء على هذه التشابهات.