ترغب بنشر مسار تعليمي؟ اضغط هنا

السلبيات داخل الدفعة لتقطير المعرفة مع المعلمين المقترنة بإحكام لاسترجاع كثيف

In-Batch Negatives for Knowledge Distillation with Tightly-Coupled Teachers for Dense Retrieval

354   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم نهج تدريب فعال لاسترجاع النص مع تمثيلات كثيفة تنطبق على تقطير المعرفة باستخدام نموذج تصنيف Colbert المتأخر للتفاعل.على وجه التحديد، نقترح نقل المعرفة من مدرس ثنائي التشفير إلى طالب عن طريق تقطير المعرفة من مشغل كولبير في Maxsim المعبير في منتج نقطة بسيطة.ميزة المعلم ثنائي التشفير - إعداد الطالب هو أنه يمكننا إضافة سلبيات داخل الدفعة الكفاءة أثناء تقطير المعرفة، مما يتيح التفاعلات الأكثر ثراء بين نماذج المعلم والطلاب.بالإضافة إلى ذلك، باستخدام Colbert حيث يقلل المعلم من تكلفة التدريب مقارنة بتشييح عرض كامل.تجارب على ممر MS MARCO ومهام وصف الوثيقة وبياناتها من مسار التعلم العميق TREC 2019 أن نهجنا يساعد النماذج على تعلم تمثيلات قوية لاسترجاع كثيف بفعالية وكفاءة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت نماذج لغة المحولات المدربة مسبقا (LM) لتشفيات تمثيل النص.البحث المسبق يلتزم LMS عميق لتشفير تسلسل النص مثل الجمل والمرورات في تمثيلات ناقلات كثيفة واحدة لمقارنة النص وانتبعدة فعالة.ومع ذلك، تتطلب التشفير الكثيفة الكثير من البيانات والتقنيات الم تطورة للتدريب بشكل فعال وتعاني في مواقف البيانات المنخفضة.تجد هذه الورقة سبب رئيسي هو أن هيكل العناية الداخلية القياسية ل LMS غير جاهزة للاستخدام للترميزات الكثيفة، والتي تحتاج إلى إجمالي معلومات نصية في التمثيل الكثيف.نقترح ما قبل القطار نحو التشفير الكثيف مع بنية محول رواية، مكثف، حيث ظروف التنبؤ LM على تمثيل كثيف.تعرض تجاربنا تظهر المكثف يحسن أكثر من LM القياسية من قبل هوامش كبيرة على مهام استرجاع النص المختلفة والتشابه.
نقدم السيد Tydi، وهي مجموعة بيانات مرجعية متعددة اللغات لاسترجاع أحادي اللغات في أحد عشر لغة متنوعة من الناحية النموذجية، مصممة لتقييم الترتيب مع التمثيلات الكثيفة المستفادة.الهدف من هذا المورد هو أن يحفز البحث في تقنيات استرجاع كثيفة باللغات غير الإ نجليزية، بدافع من الملاحظات الحديثة أن التقنيات الحالية لتعلم التمثيل تؤدي سيئة عند تطبيقها على بيانات خارج التوزيع.كنقطة انطلاق، نحن نقدم خطوط خطوط خطوط البيانات الخاصة بهذه البيانات الجديدة القائمة على التكيف متعدد اللغات من DPR التي نسميها MDPR ".تبين التجارب أنه على الرغم من أن فعالية MDPR أقل بكثير من BM25، إلا أن تمثيلات كثيفة يبدو أنها توفر إشارات ذات أهمية قيمة، وتحسين نتائج BM25 في Sparse - الهجينة الكثيفة.بالإضافة إلى تحليلات نتائجنا، نناقش أيضا التحديات المستقبلية وتقديم جدول أعمال بحث في استرجاع كثيف متعدد اللغات.يمكن تنزيل السيد Tydi في https://github.com/castorini/mr.tydi.
يتم استخدام تقطير المعرفة (KD) على نطاق واسع في معالجة اللغة الطبيعية لضغط مراحل ما قبل التدريب والضبط المهام الموحد من نماذج اللغة العصبية الكبيرة.يتم تدريب نموذج طالب على تقليل مجموعة محدبة من فقدان التنبؤ عبر الملصقات وآخر على إخراج المعلم.ومع ذلك ، فإن معظم الأعمال القائمة إما إصلاح الوزن الاستيفاء بين الخسائرين Apriori أو تختلف الوزن باستخدام الاستدلال.في هذا العمل، نقترح طريقة ترجيح عينة من الخسارة العينة، RW-KD.المتعلم التلوي، مدرب في وقت واحد مع الطالب، إعادة الوزن بشكل متكامل الخسائرتين لكل عينة.نوضح، في 7 مجموعات بيانات من مؤشر الغراء، أن RW-KD تفوقت طرق إعادة توزيع الخسارة الأخرى لدعم KD.
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل ى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR) يشكل بشكل متكرر سلسلة دليل من خلال البحث في شعاع في تمثيلات كثيفة.عند تقييمها على الإجابة على السؤال المتعدد القفز، فإن Beamdr منافسة النظم الحديثة، دون استخدام أي معلومات شبه منظمة.من خلال تكوين الاستعلام في الفضاء الكثيف، يلتقط Beamdr العلاقات الضمنية بين الأدلة في سلسلة المنطق.الرمز متاح في HENREZHAO5852 / BEAMDR.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا