يتم تدريب نماذج استرجاع الحالية على نطاق واسع على نطاق واسع مع 0-1 تسمية صعبة تشير إلى ما إذا كان الاستعلام مناسب بمستند، وتجاهل المعلومات الغنية من درجة الأهمية.تقترح هذه الورقة تحسين الاسترجاع القائم على التضمين من منظور توصيف أفضل شهادة استفسار الوثيقة عن طريق إدخال تحسين التسمية (LE) لأول مرة.لتوليد توزيع الملصقات في سيناريو استرجاع، نقوم بتصميم طريقة رواية وفعالة تم إشرافها التي تتضمن المعرفة السابقة من أساليب الترجيح الديناميكي إلى تضمينات سياقية.تتفوقت طريقتنا بشكل كبير أربع نماذج استرجاع قابلة للتنافسية ونظرائها المجهزة بتقنيتين بديلين من نماذج التدريب مع توزيع الملصقات التي تم إنشاؤها كمعلومات الإشراف المساعدة.يمكن ملاحظة التفوق بسهولة على مهام استرجاع اللغة الإنجليزية والصينية على نطاق واسع تحت إعدادات بدء التشغيل القياسية والباردة.
Current embedding-based large-scale retrieval models are trained with 0-1 hard label that indicates whether a query is relevant to a document, ignoring rich information of the relevance degree. This paper proposes to improve embedding-based retrieval from the perspective of better characterizing the query-document relevance degree by introducing label enhancement (LE) for the first time. To generate label distribution in the retrieval scenario, we design a novel and effective supervised LE method that incorporates prior knowledge from dynamic term weighting methods into contextual embeddings. Our method significantly outperforms four competitive existing retrieval models and its counterparts equipped with two alternative LE techniques by training models with the generated label distribution as auxiliary supervision information. The superiority can be easily observed on English and Chinese large-scale retrieval tasks under both standard and cold-start settings.
المراجع المستخدمة
https://aclanthology.org/