في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تشفير مزدوج بشكل فعال بسبب التحديات بما في ذلك التناقض بين التدريب والاستدلال، ووجود إيجابيات غير محدودة وبيانات تدريب محدودة. لمعالجة هذه التحديات، نقترح نهج تدريبي محسن، يسمى Rocketqa، لتحسين استرجاع الممر الكثيف. نجعل ثلاث مساهمات تقنية رئيسية في Rocketqa، وهي السلبيات عبر الدفعة، السلبيات الصلبة الشاقة وزعم البيانات. تظهر نتائج التجربة أن Rocketqa تتفوق بشكل كبير على النماذج السابقة من بين الفنادق السابقة على كل من MSMARCO والأسئلة الطبيعية. نقوم أيضا بإجراء تجارب مكثفة لفحص فعالية الاستراتيجيات الثلاث في Rocketqa. علاوة على ذلك، نوضح أن أداء ضمان الجودة المناسبة يمكن تحسينه بناء على مسترد Rocketqa لدينا.
In open-domain question answering, dense passage retrieval has become a new paradigm to retrieve relevant passages for finding answers. Typically, the dual-encoder architecture is adopted to learn dense representations of questions and passages for semantic matching. However, it is difficult to effectively train a dual-encoder due to the challenges including the discrepancy between training and inference, the existence of unlabeled positives and limited training data. To address these challenges, we propose an optimized training approach, called RocketQA, to improving dense passage retrieval. We make three major technical contributions in RocketQA, namely cross-batch negatives, denoised hard negatives and data augmentation. The experiment results show that RocketQA significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions. We also conduct extensive experiments to examine the effectiveness of the three strategies in RocketQA. Besides, we demonstrate that the performance of end-to-end QA can be improved based on our RocketQA retriever.
المراجع المستخدمة
https://aclanthology.org/
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل
في العديد من مهام معالجة اللغة الطبيعية، تعد استرجاع مرور وإعادة التعريف بمرتبة المقطع الإجراءان الرئيسيان في إيجاد المعلومات ذات الصلة وتحديدها. بما أن كل من الإجراءين يسهمان في الأداء النهائي، فمن المهم تحسينها بشكل مشترك من أجل تحقيق تحسن متبادل.
لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل
في سياق استرجاع المرفق العصبي، ندرس ثلاث تقنيات واعدة: توليد البيانات الاصطناعية، أخذ العينات السلبية، والانصهار. نحن نحقق بشكل منهجي كيف تسهم هذه التقنيات في أداء نظام الاسترجاع وكيف تكمل بعضها البعض. نقترح إطارا متعدد المراحل يتكون من التدريب المسب