في العديد من مهام معالجة اللغة الطبيعية، تعد استرجاع مرور وإعادة التعريف بمرتبة المقطع الإجراءان الرئيسيان في إيجاد المعلومات ذات الصلة وتحديدها. بما أن كل من الإجراءين يسهمان في الأداء النهائي، فمن المهم تحسينها بشكل مشترك من أجل تحقيق تحسن متبادل. في هذه الورقة، نقترح نهج تدريب مشترك رواية لاسترجاع المقطع الكثيف وإعادة إطلاق Reranking. مساهمة رئيسية هي أننا نقدم تقطير List Norwise الديناميكي، حيث نقوم بتصميم نهج تدريبي موحد للأسرار لكل من المسترد و Re-Ranker. أثناء التقطير الديناميكي، يمكن تحسين المسترد و Re-Ranker بشكل متكامل وفقا لمعلومات بعضهم البعض. نقترح أيضا استراتيجية تكبير البيانات الهجينة لبناء مثيلات تدريب متنوعة لنهج تدريب ListWise. تظهر تجارب واسعة فعالية نهجنا على كل من بيانات MSMARCO والأسئلة الطبيعية. يتوفر الكود الخاص بنا في https://github.com/paddlepaddle/rocketqa.
In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information. Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement. In this paper, we propose a novel joint training approach for dense passage retrieval and passage reranking. A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker. During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other's relevance information. We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach. Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets. Our code is available at https://github.com/PaddlePaddle/RocketQA.
المراجع المستخدمة
https://aclanthology.org/
في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تش
نقوم بدراسة استرجاع الأجابة المتعددة، وهي مشكلة غير استكشافية تتطلب استرجاع المقاطع لتغطية إجابات مميزة متعددة لسؤال معين. تتطلب هذه المهمة نمذجة مشتركة للممرات المستردة، حيث يجب ألا تسترجع النماذج مرارا وتكرارا الممرات التي تحتوي على نفس الإجابة بتك
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال
لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا
في سياق استرجاع المرفق العصبي، ندرس ثلاث تقنيات واعدة: توليد البيانات الاصطناعية، أخذ العينات السلبية، والانصهار. نحن نحقق بشكل منهجي كيف تسهم هذه التقنيات في أداء نظام الاسترجاع وكيف تكمل بعضها البعض. نقترح إطارا متعدد المراحل يتكون من التدريب المسب