تقدم هذه الورقة مساهمتنا الفائزة في مهمة Semeval 2021 8: MeasessVal.الغرض من هذه المهمة هو تحديد العدد والقياسات من الخطاب العلمي السريري، بما في ذلك الكميات والكيانات والخصائص والوحدات والوحدات والمعدلات وعلاقاتهم المتبادلة.يمكن أن تهدف هذه المهمة إلى مشكلة استخراج كيان مشترك وعلاقة.وفقا لذلك، نقترح Conner، أداة استخراج العد والقياس التي يمكن أن تحدد الكيانات والعلاقات المقابلة في نموذج خط أنابيب من خطوتين.نحن نقدم وصفا مفصلا للنموذج المقترح فيما يلي.علاوة على ذلك، يتم التحقيق في تأثير الوحدات الأساسية والمخططات الفنية المعنية لدينا أيضا.
This paper presents our wining contribution to SemEval 2021 Task 8: MeasEval. The purpose of this task is identifying the counts and measurements from clinical scientific discourse, including quantities, entities, properties, qualifiers, units, modifiers, and their mutual relations. This task can be induced to a joint entity and relation extraction problem. Accordingly, we propose CONNER, a cascade count and measurement extraction tool that can identify entities and the corresponding relations in a two-step pipeline model. We provide a detailed description of the proposed model hereinafter. Furthermore, the impact of the essential modules and our in-process technical schemes are also investigated.
المراجع المستخدمة
https://aclanthology.org/
Gecko +: أداة تصحيح الأخطاء النحوية والخطاط نقدم Gecko +، أداة مساعدة الكتابة على شبكة الإنترنت للغة الإنجليزية التي تصحيح الأخطاء على حد سواء في الجملة وعلى مستوى الخطاب.يعتمد ذلك على نماذجتين من أحدث نماذج لتصحيح الأخطاء النحوية وطلب الجملة.يتوفر G
غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصا
المستندات العلمية مليئة بالقياسات المذكورة في تنسيقات وأنماط مختلفة. على هذا النحو، في وثيقة ذات كميات متعددة والكيانات المقاسة، فإن مهمة ربط كل كمية إلى كيانها المقاس المقابل أمر صعب. وبالتالي، من الضروري الحصول على طريقة لاستخراج جميع القياسات والس
القدرة على توليد محاذاة كلمة دقيقة مفيدة لمجموعة متنوعة من المهام.في حين أن محاذاة الكلمة الإحصائية يمكن أن تعمل بشكل جيد، خاصة عندما تكون بيانات التدريب الموازية وفيرة، فقد تبين مؤخرا نماذج تضمين متعددة اللغات نتائج جيدة في سيناريوهات غير مخالفة.نقي
أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه،