ترغب بنشر مسار تعليمي؟ اضغط هنا

السيد تاي: معيار متعدد اللغات لاسترجاع كثيف

Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval

429   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم السيد Tydi، وهي مجموعة بيانات مرجعية متعددة اللغات لاسترجاع أحادي اللغات في أحد عشر لغة متنوعة من الناحية النموذجية، مصممة لتقييم الترتيب مع التمثيلات الكثيفة المستفادة.الهدف من هذا المورد هو أن يحفز البحث في تقنيات استرجاع كثيفة باللغات غير الإنجليزية، بدافع من الملاحظات الحديثة أن التقنيات الحالية لتعلم التمثيل تؤدي سيئة عند تطبيقها على بيانات خارج التوزيع.كنقطة انطلاق، نحن نقدم خطوط خطوط خطوط البيانات الخاصة بهذه البيانات الجديدة القائمة على التكيف متعدد اللغات من DPR التي نسميها MDPR ".تبين التجارب أنه على الرغم من أن فعالية MDPR أقل بكثير من BM25، إلا أن تمثيلات كثيفة يبدو أنها توفر إشارات ذات أهمية قيمة، وتحسين نتائج BM25 في Sparse - الهجينة الكثيفة.بالإضافة إلى تحليلات نتائجنا، نناقش أيضا التحديات المستقبلية وتقديم جدول أعمال بحث في استرجاع كثيف متعدد اللغات.يمكن تنزيل السيد Tydi في https://github.com/castorini/mr.tydi.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت نماذج لغة المحولات المدربة مسبقا (LM) لتشفيات تمثيل النص.البحث المسبق يلتزم LMS عميق لتشفير تسلسل النص مثل الجمل والمرورات في تمثيلات ناقلات كثيفة واحدة لمقارنة النص وانتبعدة فعالة.ومع ذلك، تتطلب التشفير الكثيفة الكثير من البيانات والتقنيات الم تطورة للتدريب بشكل فعال وتعاني في مواقف البيانات المنخفضة.تجد هذه الورقة سبب رئيسي هو أن هيكل العناية الداخلية القياسية ل LMS غير جاهزة للاستخدام للترميزات الكثيفة، والتي تحتاج إلى إجمالي معلومات نصية في التمثيل الكثيف.نقترح ما قبل القطار نحو التشفير الكثيف مع بنية محول رواية، مكثف، حيث ظروف التنبؤ LM على تمثيل كثيف.تعرض تجاربنا تظهر المكثف يحسن أكثر من LM القياسية من قبل هوامش كبيرة على مهام استرجاع النص المختلفة والتشابه.
لقد أظهر استرجاع كثيف نجاحا كبيرا لمرتبة المرور باللغة الإنجليزية.ومع ذلك، لا تزال فعاليتها للغات غير الإنجليزية غير مستكشفة بسبب الحد من الموارد التدريبية.في هذا العمل، نستكشف تقنيات نقل مختلفة لتحقيق تصنيف الوثيقة من التوضيح باللغة الإنجليزية إلى ا للغات غير الإنجليزية.تكشف تجاربنا أن التحويل المستندة إلى نموذج الطلقة الصفرية باستخدام mbert يحسن جودة البحث.نجد أن التحويل اللغوي المستهدف الأكثر إشرافا ضعيفا قادرة على المنافسة مقارنة بنقل اللغة المستهدفة القائمة على الجيل، والذي يتطلب نماذج الترجمة.
غالبا ما يتطلب الإجابة على السؤال المجمع إيجاد سلسلة من التفكير يتكون من قطع أدلة متعددة.تتضمن الأساليب الحالية نقاط قوة المعرفة والنص غير منظم، بافتراض النص النحاسي نصف منظم.بناء على طرق استرجاع كثيفة، نقترح نهجا جديدا استرجاع متعدد الخطوات (BEAMDR) يشكل بشكل متكرر سلسلة دليل من خلال البحث في شعاع في تمثيلات كثيفة.عند تقييمها على الإجابة على السؤال المتعدد القفز، فإن Beamdr منافسة النظم الحديثة، دون استخدام أي معلومات شبه منظمة.من خلال تكوين الاستعلام في الفضاء الكثيف، يلتقط Beamdr العلاقات الضمنية بين الأدلة في سلسلة المنطق.الرمز متاح في HENREZHAO5852 / BEAMDR.
نقدم نهج تدريب فعال لاسترجاع النص مع تمثيلات كثيفة تنطبق على تقطير المعرفة باستخدام نموذج تصنيف Colbert المتأخر للتفاعل.على وجه التحديد، نقترح نقل المعرفة من مدرس ثنائي التشفير إلى طالب عن طريق تقطير المعرفة من مشغل كولبير في Maxsim المعبير في منتج ن قطة بسيطة.ميزة المعلم ثنائي التشفير - إعداد الطالب هو أنه يمكننا إضافة سلبيات داخل الدفعة الكفاءة أثناء تقطير المعرفة، مما يتيح التفاعلات الأكثر ثراء بين نماذج المعلم والطلاب.بالإضافة إلى ذلك، باستخدام Colbert حيث يقلل المعلم من تكلفة التدريب مقارنة بتشييح عرض كامل.تجارب على ممر MS MARCO ومهام وصف الوثيقة وبياناتها من مسار التعلم العميق TREC 2019 أن نهجنا يساعد النماذج على تعلم تمثيلات قوية لاسترجاع كثيف بفعالية وكفاءة.
التقدم الملخص في النمذجة المتبادلة يعتمد على مجموعات التقييم الصعبة والواقعية والتنوع.نقدم أسئلة وأجوبة معارف متعددة اللغات (MKQA)، وهي سؤالا مفتوحا في مجال الإجابة على مجموعة التقييم التي تضم أزواج من الإجابات السؤال 10 كيلو محاذاة عبر 26 لغة متنوعة من الناحية النموذجية (أزواج الإجابة السؤال 260k في المجموع).تستند الإجابات إلى تمثيل بيانات غير مستقر بشدة، مما يجعل النتائج قابلة للمقارنة عبر اللغات والمستقل عن الممرات الخاصة باللغة.مع 26 لغة، توفر مجموعة البيانات هذه الأوسع نطاقا من اللغات حتى الآن لتقييم الإجابة على السؤال.نحن نقسم مجموعة متنوعة من الأساليب وخطوط الأساس للدولة والأساس للاستخراج الاستقبال، المدربين على الأسئلة الطبيعية، في صفر لقطة وإعدادات الترجمة.تشير النتائج إلى أن هذه البيانات تتحدى حتى باللغة الإنجليزية، ولكن خاصة في لغات الموارد المنخفضة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا