تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقائيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.