لقد تم استخراج العلاقات عبر مجموعة نصية كبيرة غير مستمدة نسبيا في NLP، لكنه مهم للغاية بالنسبة لمجالات عالية القيمة مثل الطب الحيوي، حيث يكون الحصول على استدعاء عالية من أحدث النتائج أمر حاسم للتطبيقات العملية. بالمقارنة مع استخراج المعلومات التقليدية المحصورة على تمديد النص القصير، فإن استخراج العلاقات على مستوى المستند يواجه تحديات إضافية في كل من الاستدلال والتعلم. وبالنظر إلى تمديدات نصية أطول، فإن الهندسة العصبية الحديثة هي الإشراف الذاتي الأقل فعالية ومحددة المهام مثل الإشراف البعيد يصبح صاخبا جدا. في هذه الورقة، نقترح انحلال استخراج العلاقات على مستوى الوثيقة في الدقة المتعلقة بالكشف عن العلاقة والحجة، مما أدى إلى إلهام من دلالات ديفيدسون. تمكننا هذا من دمج نماذج الخطاب الصريحة والاستفادة من الإشراف الذاتي المعياري لكل مشكلة فرعية، وهو أقل عرضة للضوضاء ويمكن أن يكون مزيدا من النهايات المكررة عبر التباين. نقوم بإجراء تقييم شامل في قراءة الآلة الطبية الحيوية لعلم الأورام الدقيقة، حيث تذكر علاقة الفقرة الشاملة سائدة. تتفوق طريقةنا على الدولة السابقة للفن، مثل التعلم متعدد النطاق والشبكات العصبية الرسمية، بأكثر من 20 نقطة F1 المطلقة. وانطبق الربح بشكل خاص بين أكثر حالات العلاقات الأكثر تحديا التي لا تحدث حججها في فقرة.
Extracting relations across large text spans has been relatively underexplored in NLP, but it is particularly important for high-value domains such as biomedicine, where obtaining high recall of the latest findings is crucial for practical applications. Compared to conventional information extraction confined to short text spans, document-level relation extraction faces additional challenges in both inference and learning. Given longer text spans, state-of-the-art neural architectures are less effective and task-specific self-supervision such as distant supervision becomes very noisy. In this paper, we propose decomposing document-level relation extraction into relation detection and argument resolution, taking inspiration from Davidsonian semantics. This enables us to incorporate explicit discourse modeling and leverage modular self-supervision for each sub-problem, which is less noise-prone and can be further refined end-to-end via variational EM. We conduct a thorough evaluation in biomedical machine reading for precision oncology, where cross-paragraph relation mentions are prevalent. Our method outperforms prior state of the art, such as multi-scale learning and graph neural networks, by over 20 absolute F1 points. The gain is particularly pronounced among the most challenging relation instances whose arguments never co-occur in a paragraph.
المراجع المستخدمة
https://aclanthology.org/
استخراج العلاقات على مستوى المستند يهدف إلى تحديد العلاقات بين الكيانات في وثيقة كاملة. اعتمدت الجهود السابقة لالتقاط التبعيات البعيدة المدى اعتمادا كبيرا على تمثيلات قوية ضمنيا تعلمت من خلال (الرسم البياني) الشبكات العصبية، مما يجعل النموذج أقل شفاف
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ
إن استخراج العلاقات على مستوى المستند هو مهمة صعبة، تتطلب التفكير في جمل متعددة للتنبؤ بمجموعة من العلاقات في وثيقة.في هذه الورقة، نقترح إطار رواية E2GRE (الكيان والأدلة استخراج التعادل الموجود) التي تستخرج العلاقات بشكل مشترك وعمليات الأدلة الأساسية
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس
لتخفيف الجهود البشرية من الحصول على شروح واسعة النطاق، تهدف أساليب استخراج العلاقات شبه الإشراف إلى الاستفادة من البيانات غير المسبقة بالإضافة إلى التعلم من عينات محدودة. تعاني أساليب التدريب الذاتي الحالية من مشكلة الانجراف التدريجي، حيث يتم دمج تسم