في هذه الورقة، ندرس أهمية السياق في التنبؤ بالجدارة من الجمل في المقالات العلمية.نحن صياغة هذه المشكلة كملمس تسلسل تسلسل باستخدام نموذج Bilstm هرمي.نحن نساهم في مجموعة بيانات قياسية جديدة تحتوي على أكثر من مليوني جمل وملمياتها المقابلة.نحافظ على ترتيب الجملة في هذه البيانات وأداء انقسامات قطار / اختبار على مستوى المستند، والتي تتيح الأهم من دمج المعلومات السياقية في عملية النمذجة.نحن نقيم النهج المقترح على ثلاثة مجموعات من مجموعات البيانات القياسية.تؤدي نتائجنا إلى تحديد فوائد استخدام السياق ومشروع السياق للجدارة.وأخيرا، من خلال تحليل الأخطاء، نحن نقدم رؤى في الحالات التي يلعب فيها السياق دورا أساسيا في التنبؤ بالجدر على الاقتباس.
In this paper, we study the importance of context in predicting the citation worthiness of sentences in scholarly articles. We formulate this problem as a sequence labeling task solved using a hierarchical BiLSTM model. We contribute a new benchmark dataset containing over two million sentences and their corresponding labels. We preserve the sentence order in this dataset and perform document-level train/test splits, which importantly allows incorporating contextual information in the modeling process. We evaluate the proposed approach on three benchmark datasets. Our results quantify the benefits of using context and contextual embeddings for citation worthiness. Lastly, through error analysis, we provide insights into cases where context plays an essential role in predicting citation worthiness.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة النظام الذي بنناه كفريق YNU-HPCC في مهمة Semeval-2021 11: NLPContribeGraph. تتضمن هذه المهمة أولا تحديد الجمل في المقالات العلمية المعينة للغة الطبيعية (NLP) التي تعكس مساهمات البحث من خلال التصنيف الثنائي؛ ثم تحديد المصطلحات العلمية ا
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر
غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصا
مع سرعة البحوث المتزايدة بشكل مفيد والحجم المرتفع للاتصال العلمي، يواجه العلماء مهمة شاقة. ليس فقط يجب عليهم مواكبة الأدبيات المتزايدة في مجالاتهم ذات الصلة، كما يحتاج العلماء بشكل متزايد إلى إعادة صياغة العلوم الزائفة والإضاءة. تحفز هذه الاحتياجات ت
يتعرض المستخدمون عبر الإنترنت اليوم للمقالات الإخبارية المضللة والدعاية ووظائف الإعلام على أساس يومي.وبالتالي، فقد تم تصميم عدد من الأساليب تهدف إلى تحقيق أخبار غير صحية وأكثر أمانا على الإنترنت واستهلاك وسائل الإعلام.النظم التلقائية قادرة على دعم ال