نشير إلى أن ممارسات التقييم المشتركة لحل النواة المستندات كانت غير متسقة بشكل غير واقعي في إعداداتها المفترضة، مما أثار نتائج تضخيم.نقترح معالج هذه المشكلة عبر مبادئ منهجية التقييم.أولا، كما هو الحال في المهام الأخرى، ينبغي تقييم النماذج بشأن الأهمية المتوقعة بدلا من الإشراهات الذهبية.القيام بذلك يثير قضية خفية فيما يتعلق بمجموعات Singleton Comeference، والتي نتعلمها عن طريق فصل تقييم التقييم للكشف عن ربط COMELES.ثانيا، نجرب أن النماذج يجب ألا تستغل بنية الموضوع الاصطناعي لمجموعة بيانات البنك المركزي الأوروبي + المعيار، مما أجبر النماذج لمواجهة تحدي الغموض المعجمي، على النحو المقصود من قبل منشئو البيانات.نوضح بالتجريد التأثير الجذراني لمبادئ تقييمنا الأكثر واقعية لدينا على نموذج تنافسي، مما يؤدي إلى درجة أقل 33 F1 مقارنة بتقييم الممارسات اللانوية السابقة.
We point out that common evaluation practices for cross-document coreference resolution have been unrealistically permissive in their assumed settings, yielding inflated results. We propose addressing this issue via two evaluation methodology principles. First, as in other tasks, models should be evaluated on predicted mentions rather than on gold mentions. Doing this raises a subtle issue regarding singleton coreference clusters, which we address by decoupling the evaluation of mention detection from that of coreference linking. Second, we argue that models should not exploit the synthetic topic structure of the standard ECB+ dataset, forcing models to confront the lexical ambiguity challenge, as intended by the dataset creators. We demonstrate empirically the drastic impact of our more realistic evaluation principles on a competitive model, yielding a score which is 33 F1 lower compared to evaluating by prior lenient practices.
المراجع المستخدمة
https://aclanthology.org/
الكيانات المتعلقة بالأحداث والأحداث في النص هي مكون رئيسي لفهم اللغة الطبيعية.دقة Coreference Coreference، على وجه الخصوص، أمر مهم بالنسبة للمصلحة المتزايدة بمهام تحليل المستندات متعددة الوثائق.في هذا العمل، نقترح نموذجا جديدا يمتد نموذج التنبؤ المتس
نقترح النموذج الفوري الحدث العصبي الذي يتم فيه تدريب كائن تحرير الحدث بشكل مشترك مع خمس مهام: اكتشاف الزناد، كائن كور السلاح، تصميم المشمول، اكتشاف Realis، استخراج الوسيطة.لتوجيه تعلم هذا النموذج المعقد، فإننا ندمج قيود الاتساق عبر المهام في عملية ال
تدرس هذه الورقة مشكلة دقة Aquerence Aquerence Coursence (CDE) التي تسعى إلى تحديد ما إذا كان يذكر الحدث عبر مستندات متعددة تشير إلى نفس الأحداث في العالم الحقيقي.أظهر العمل المسبق فوائد معلومات الوسائد وسياق الوثيقة لحل فور معلومات الحدث.ومع ذلك، لم
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه
ندرس مشكلة جديدة في التعلم عبر التحويلات المتبادلة لحدث القرار (ECR) حيث يتم تكييف النماذج المدربة على البيانات من لغة مصدر للتقييمات باللغات المستهدفة المختلفة. نقدم النموذج الأساسي الأول لهذه المهمة بناء على نموذج لغة XLM-Roberta، وهو نموذج لغوي مت