نطلق سراح Foodwice (FM2 لفترة قصيرة)، وهي مجموعة بيانات كبيرة من أزواج الاستلام الصعبة التي تم جمعها من خلال لعبة متعة متعددة اللاعبين.تشجع Gameification على الأمثلة العدائية، وخفضت بشكل كبير عدد الأمثلة التي يمكن حلها باستخدام اختصارات "مقارنة بمشارات البيانات الاستقالة الأخرى.يتم عرض اللاعبين بمهامين.تطلب المهمة الأولى من اللاعب كتابة مطالبة معقولة بناء على الأدلة من صفحة ويكيبيديا.والثاني يظهر اثنين من المطالبات المعقولة التي كتبها لاعبين آخرون، واحدة منها خاطئة، والهدف هو تحديد الأمر قبل أن ينفد الوقت.يدفع اللاعبون "" لرؤية القرائن المستردة من مجموعة الأدلة: كلما زاد عدد الأدلة على احتياجات اللاعب، فإن المطالبة الصعبة.تؤدي اللعبة - اللعب بين اللاعبين الدوافع إلى استراتيجيات متنوعة لصياغة المطالبات، مثل الاستدلال الزمني وتحويل الأدلة غير المرتبطة، ونتائج بيانات عالية الجودة لمهام استرجاع الأدلة والأدلة.نحن نفتح المصدر DataSet ورمز اللعبة.
We release FoolMeTwice (FM2 for short), a large dataset of challenging entailment pairs collected through a fun multi-player game. Gamification encourages adversarial examples, drastically lowering the number of examples that can be solved using shortcuts'' compared to other popular entailment datasets. Players are presented with two tasks. The first task asks the player to write a plausible claim based on the evidence from a Wikipedia page. The second one shows two plausible claims written by other players, one of which is false, and the goal is to identify it before the time runs out. Players pay'' to see clues retrieved from the evidence pool: the more evidence the player needs, the harder the claim. Game-play between motivated players leads to diverse strategies for crafting claims, such as temporal inference and diverting to unrelated evidence, and results in higher quality data for the entailment and evidence retrieval tasks. We open source the dataset and the game code.
المراجع المستخدمة
https://aclanthology.org/
تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا ال
يوفر الإعلان السياقي للمعلنين الفرصة لاستهداف السياق الأكثر صلة بإعلاناتهم. يجعل مجموعة متنوعة كبيرة من الموضوعات المحتملة تحديا للغاية لجمع وثائق التدريب لبناء نموذج تصنيف إشراف أو يؤلف قواعد مكتوبة للخبراء في نظام تصنيف قائم على القواعد. علاوة على
أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل،
تقدم هذه الدراسة وتحليلات WikitalkEdit وديجمات من المحادثات وتعديل التواريخ من ويكيبيديا، للبحث في التعاون عبر الإنترنت ونمذجة المحادثة. تضم DataSet ثلاث مرات حوار من صفحات الحديث Wikipedia، وتحرير الإجراءات على المقالات المقابلة التي تتم مناقشتها. ن
التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية