تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة عبوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.
Extracting keyphrases that summarize the main points of a document is a fundamental task in natural language processing. Supervised approaches to keyphrase extraction(KPE) are largely developed based on the assumption that the training data is fully annotated. However, due to the difficulty of keyphrase annotating, KPE models severely suffer from incomplete annotated problem in many scenarios. To this end, we propose a more robust training method that learns to mitigate the misguidance brought by unlabeled keyphrases. We introduce negative sampling to adjust training loss, and conduct experiments under different scenarios. Empirical studies on synthetic datasets and open domain dataset show that our model is robust to incomplete annotated problem and surpasses prior baselines. Extensive experiments on five scientific domain datasets of different scales demonstrate that our model is competitive with the state-of-the-art method.
المراجع المستخدمة
https://aclanthology.org/
الكلمات الرئيسية أو استخراج مفاتيح الصوت هي تحديد الكلمات أو العبارات التي تقدم الموضوعات الرئيسية للمستند.تقترح هذه الورقة الاهتمام، وهو نموذج انتباه هجين، لتحديد الرابط القصوى من وثيقة بطريقة غير مخالفة.تعاني Natheatrank حساب اهتمام الذات والاهتمام
تستخدم الأساليب القائمة على نطاق واسع على نطاق واسع لمهام استخراج مفاتيح المفاتيح غير المنشأة (UKE). بشكل عام، تقوم هذه الأساليب ببساطة بحساب أوجه التشابه بين Aregeddings و Award Action، وهو غير كاف لالتقاط سياق مختلف لنموذج UKE أكثر فعالية. في هذه ا
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر
حققت الترجمة الآلية العصبية غير الخاضعة للرقابة (UNMT) التي تعتمد فقط على Glassive Monolingual Corpora نتائج ملحوظة في العديد من مهام الترجمة.ومع ذلك، في سيناريوهات العالم الواقعي، لا توجد سورانيا أحادية الأبعاد الضخمة لبعض لغات الموارد المنخفضة للغا
نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعا