يبذل الأبحاث في معالجة اللغة الطبيعية تطورات سريعة، مما يؤدي إلى نشر عدد كبير من الأوراق البحثية. العثور على أوراق بحثية ذات صلة ومساهمتها في المجال هي مشكلة صعبة. في هذه الورقة، نتعلم هذا التحدي عبر مهمة Semeval 2021 11: NLPConTributiongraph، من خلال تطوير نظام للحصول على الرسم البياني المعرفة المركزة للصفحة البحثية على أدب معالجة اللغة الطبيعية. تنقسم المهمة إلى ثلاث مهام فرعية: استخراج جمل المساهمة التي توضح مساهمات مهمة في المادة البحثية، واستخراج العبارات من أحكام المساهمة، والتنبؤ بالوحدات الإعلامية في المادة البحثية مع تكوين ثلاثي الأمراض من العبارات. النظام المقترح غير ملائم إلى مجال الموضوع ويمكن تطبيقه لبناء رسم بياني للمعرفة لأي منطقة. وجدنا أن نماذج اللغة القائمة على المحولات يمكن أن تحسن بشكل كبير التقنيات الحالية واستخدام النموذج المستند إلى Scibert. تستخدم المهمة الفرعية الأولى لدينا ثنائي الاتجاه LSTM (Bilstm) مكدسة أعلى طبقات نموذج Scibert، في حين أن المهمة الفرعية الثانية تستخدم مجال عشوائي مشروط (CRF) على رأس Scibert مع Bilstm. تستخدم المهمة الفرعية الثالثة نهجا عصبي مجتمعة مقرها مع الاستدلال لتنبؤ وحدة المعلومات وتشكيل ثلاثي الزيارة من العبارات. حقق نظامنا درجة F1 من 0.38، 0.63 و 0.76 في اختبار خط أنابيب نهاية إلى نهاية، اختبار استخراج العبارات واختبار استخراج ثلاث مرات.
Research in Natural Language Processing is making rapid advances, resulting in the publication of a large number of research papers. Finding relevant research papers and their contribution to the domain is a challenging problem. In this paper, we address this challenge via the SemEval 2021 Task 11: NLPContributionGraph, by developing a system for a research paper contributions-focused knowledge graph over Natural Language Processing literature. The task is divided into three sub-tasks: extracting contribution sentences that show important contributions in the research article, extracting phrases from the contribution sentences, and predicting the information units in the research article together with triplet formation from the phrases. The proposed system is agnostic to the subject domain and can be applied for building a knowledge graph for any area. We found that transformer-based language models can significantly improve existing techniques and utilized the SciBERT-based model. Our first sub-task uses Bidirectional LSTM (BiLSTM) stacked on top of SciBERT model layers, while the second sub-task uses Conditional Random Field (CRF) on top of SciBERT with BiLSTM. The third sub-task uses a combined SciBERT based neural approach with heuristics for information unit prediction and triplet formation from the phrases. Our system achieved F1 score of 0.38, 0.63 and 0.76 in end-to-end pipeline testing, phrase extraction testing and triplet extraction testing respectively.
المراجع المستخدمة
https://aclanthology.org/
نقترح سلسلة من النماذج العصبية التي تنفذ تصنيف الجملة، والاعتراف العبارة، واستخراج ثلاثي لإجراء المساهمات العلمية تلقائيا من منشورات NLP. لتحديد أحكام المساهمة الأكثر أهمية في ورقة، استخدمنا مصنف مقرا له بالميزات الموضعية (SubTask 1). تم استخدام نموذ
تصف هذه الورقة النظام الفائز في مرحلة خطوط الأنابيب الطرفية للمهمة NLPConTribeGraph.يتكون النظام من ثلاث نماذج قائمة على بيرت وتستخدم النماذج الثلاثة لاستخراج الجمل والكيانات والألعاب الثلاثية على التوالي.تظهر التجارب أن أخذ العينات والتدريب الخصم يم
في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم
تصف هذه الورقة مساهمتنا في مهمة Semeval 2021 1 (Shardlow et al.، 2021): تنبؤ التعقيد المعجمي.في نهجنا، نستفيد النموذج Electra ومحاولة تعكس نظام شرح البيانات.على الرغم من أن المهمة مهمة الانحدار، إلا أننا نوضح أننا نستطيع التعامل معها كجميع العديد من
في الآونة الأخيرة، كان هناك مصلحة في البحث عن التحقق من الواقع والتنبؤ على البيانات المنظمة مثل الجداول والرسوم البيانية. للتحايل على أي حادث أخبار كاذبة، من الضروري عدم النموذج والتنبؤ فقط على البيانات المنظمة بكفاءة ولكن أيضا لشرح تلك التنبؤات. في