نقدم نهج تدريب فعال لاسترجاع النص مع تمثيلات كثيفة تنطبق على تقطير المعرفة باستخدام نموذج تصنيف Colbert المتأخر للتفاعل.على وجه التحديد، نقترح نقل المعرفة من مدرس ثنائي التشفير إلى طالب عن طريق تقطير المعرفة من مشغل كولبير في Maxsim المعبير في منتج نقطة بسيطة.ميزة المعلم ثنائي التشفير - إعداد الطالب هو أنه يمكننا إضافة سلبيات داخل الدفعة الكفاءة أثناء تقطير المعرفة، مما يتيح التفاعلات الأكثر ثراء بين نماذج المعلم والطلاب.بالإضافة إلى ذلك، باستخدام Colbert حيث يقلل المعلم من تكلفة التدريب مقارنة بتشييح عرض كامل.تجارب على ممر MS MARCO ومهام وصف الوثيقة وبياناتها من مسار التعلم العميق TREC 2019 أن نهجنا يساعد النماذج على تعلم تمثيلات قوية لاسترجاع كثيف بفعالية وكفاءة.
We present an efficient training approach to text retrieval with dense representations that applies knowledge distillation using the ColBERT late-interaction ranking model. Specifically, we propose to transfer the knowledge from a bi-encoder teacher to a student by distilling knowledge from ColBERT's expressive MaxSim operator into a simple dot product. The advantage of the bi-encoder teacher--student setup is that we can efficiently add in-batch negatives during knowledge distillation, enabling richer interactions between teacher and student models. In addition, using ColBERT as the teacher reduces training cost compared to a full cross-encoder. Experiments on the MS MARCO passage and document ranking tasks and data from the TREC 2019 Deep Learning Track demonstrate that our approach helps models learn robust representations for dense retrieval effectively and efficiently.
المراجع المستخدمة
https://aclanthology.org/
أصبحت نماذج لغة المحولات المدربة مسبقا (LM) لتشفيات تمثيل النص.البحث المسبق يلتزم LMS عميق لتشفير تسلسل النص مثل الجمل والمرورات في تمثيلات ناقلات كثيفة واحدة لمقارنة النص وانتبعدة فعالة.ومع ذلك، تتطلب التشفير الكثيفة الكثير من البيانات والتقنيات الم
نقدم السيد Tydi، وهي مجموعة بيانات مرجعية متعددة اللغات لاسترجاع أحادي اللغات في أحد عشر لغة متنوعة من الناحية النموذجية، مصممة لتقييم الترتيب مع التمثيلات الكثيفة المستفادة.الهدف من هذا المورد هو أن يحفز البحث في تقنيات استرجاع كثيفة باللغات غير الإ
يتم استخدام تقطير المعرفة (KD) على نطاق واسع في معالجة اللغة الطبيعية لضغط مراحل ما قبل التدريب والضبط المهام الموحد من نماذج اللغة العصبية الكبيرة.يتم تدريب نموذج طالب على تقليل مجموعة محدبة من فقدان التنبؤ عبر الملصقات وآخر على إخراج المعلم.ومع ذلك
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR)