نطلق سراح معيار جديد لاستبدال المعجمات، ومهمة العثور على بدائل مناسبة لكلمة مستهدفة في سياق. للكتابة، يمكن أن أنظمة بدائل معجمية مساعدة البشر من خلال اقتراح الكلمات التي لا يستطيع البشر التفكير فيها بسهولة. ومع ذلك، تعتمد المعايير الحالية على التذكير البشري باعتبارها المصدر الوحيد للبيانات، وبالتالي تفتقر إلى تغطية البدائل التي ستكون مفيدة للبشر. علاوة على ذلك، غالبا ما توفر المحن المعلقون بدائل منخفضة الجودة، والتي ليست مناسبة بالفعل في السياق المحدد. نقوم بجمع التغطية المرتفعة والبيانات ذات الجودة العالية عن طريق تأطير الاستبدال المعجمي كمشكلة تصنيف، تسترشد بالحزانة أنه من الأسهل بالنسبة للبشر الحكم على مدى ملاءمة بدائل المرشحين من الذاكرة. تحقيقا لهذه الغاية، نستخدم المرادفات الخالية من السياق لإنتاج المرشحين والاعتماد على الحكم الإنساني لتحديد مدى ملاءمة السياق. مقارنة بأكبر مؤشر سابق، فإن معيار سيوفنا يحتوي على 3X أكبر عدد ممكن من البدائل لكل كلمة مستهدفة لنفس المستوى من الجودة، وبدائلها أكثر ملاءمة (استنادا إلى الحكم الإنساني) لنفس العدد من البدائل.
We release a new benchmark for lexical substitution, the task of finding appropriate substitutes for a target word in a context. For writing, lexical substitution systems can assist humans by suggesting words that humans cannot easily think of. However, existing benchmarks depend on human recall as the only source of data, and therefore lack coverage of the substitutes that would be most helpful to humans. Furthermore, annotators often provide substitutes of low quality, which are not actually appropriate in the given context. We collect higher-coverage and higher-quality data by framing lexical substitution as a classification problem, guided by the intuition that it is easier for humans to judge the appropriateness of candidate substitutes than conjure them from memory. To this end, we use a context-free thesaurus to produce candidates and rely on human judgement to determine contextual appropriateness. Compared to the previous largest benchmark, our Swords benchmark has 3x as many substitutes per target word for the same level of quality, and its substitutes are 1.4x more appropriate (based on human judgement) for the same number of substitutes.
المراجع المستخدمة
https://aclanthology.org/
نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.ع
نقدم مجموعة بيانات موازية فيتنامية عالية الجودة ومقدمة على نطاق واسع من أزواج الجملة بنسبة 3.02m، والتي تبلغ 2.9 مليون أزواج أكبر من كوربوس الترجمة الآلية الفيتنامية-الإنجليزية الفيتنامية - IWSLT15.نقوم بإجراء تجارب تقارن خطوط الأساس العصبية القوية و
إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم
أدت التقدم المحرز الأخير في معالجة اللغات الطبيعية إلى أن تصبح هياكل المحولات النموذجية السائدة المستخدمة لمهام اللغة الطبيعية.ومع ذلك، في العديد من مجموعات البيانات في العالم، يتم تضمين طرائق إضافية التي لا يستوفي المحول مباشرة.نقدم مجموعة أدوات متع
مشاكل صعبة مثل استجابة الأسئلة المفتوحة للنطاق الرد، وفحص الحقائق، وربط فتحة وملء الكيان تتطلب الوصول إلى مصادر المعرفة الكبيرة والخارجية. في حين أن بعض النماذج تعمل بشكل جيد على المهام الفردية، فإن النماذج العامة النامية صعبة لأن كل مهمة قد تتطلب فه