ترغب بنشر مسار تعليمي؟ اضغط هنا

MKQA: معيار متنوع لغالي اللغوي للنطاق متعدد اللغات

MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering

325   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التقدم الملخص في النمذجة المتبادلة يعتمد على مجموعات التقييم الصعبة والواقعية والتنوع.نقدم أسئلة وأجوبة معارف متعددة اللغات (MKQA)، وهي سؤالا مفتوحا في مجال الإجابة على مجموعة التقييم التي تضم أزواج من الإجابات السؤال 10 كيلو محاذاة عبر 26 لغة متنوعة من الناحية النموذجية (أزواج الإجابة السؤال 260k في المجموع).تستند الإجابات إلى تمثيل بيانات غير مستقر بشدة، مما يجعل النتائج قابلة للمقارنة عبر اللغات والمستقل عن الممرات الخاصة باللغة.مع 26 لغة، توفر مجموعة البيانات هذه الأوسع نطاقا من اللغات حتى الآن لتقييم الإجابة على السؤال.نحن نقسم مجموعة متنوعة من الأساليب وخطوط الأساس للدولة والأساس للاستخراج الاستقبال، المدربين على الأسئلة الطبيعية، في صفر لقطة وإعدادات الترجمة.تشير النتائج إلى أن هذه البيانات تتحدى حتى باللغة الإنجليزية، ولكن خاصة في لغات الموارد المنخفضة



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل ى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.
في الإجابة على الأسئلة المفتوحة للنطاق الرد (ضمان الجودة)، فإن آلية استرداد وقراءة القراءة لها الاستفادة المتأصلة من الترجمة الترجمة من الترجمة الشفوية وسهولة إضافة أو إزالة أو تحرير المعرفة مقارنة بالنهج المعلمة لنماذج QA كتاب مغلقة.ومع ذلك، من المع روف أيضا أن تعاني من بصمة التخزين الكبيرة بسبب كوربوس وثائقها ومؤشرها.هنا، نناقش العديد من الاستراتيجيات المتعامدة لتقليل البصمة بشكل كبير من نظام QA لاسترداد ونظام QA المتسترف والقراءة بنسبة تصل إلى 160X.تشير نتائجنا إلى أن استرداد وقراءة القراءة يمكن أن يكون خيارا قابلا للتطبيق حتى في بيئة تخدم عالية للغاية مثل أجهزة الحافة، حيث نظهر أنه يمكن أن يحقق دقة أفضل من نموذج حزم بحزم مع حجم نظام منخفض المستوى من Docker.
في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تش فير مزدوج بشكل فعال بسبب التحديات بما في ذلك التناقض بين التدريب والاستدلال، ووجود إيجابيات غير محدودة وبيانات تدريب محدودة. لمعالجة هذه التحديات، نقترح نهج تدريبي محسن، يسمى Rocketqa، لتحسين استرجاع الممر الكثيف. نجعل ثلاث مساهمات تقنية رئيسية في Rocketqa، وهي السلبيات عبر الدفعة، السلبيات الصلبة الشاقة وزعم البيانات. تظهر نتائج التجربة أن Rocketqa تتفوق بشكل كبير على النماذج السابقة من بين الفنادق السابقة على كل من MSMARCO والأسئلة الطبيعية. نقوم أيضا بإجراء تجارب مكثفة لفحص فعالية الاستراتيجيات الثلاث في Rocketqa. علاوة على ذلك، نوضح أن أداء ضمان الجودة المناسبة يمكن تحسينه بناء على مسترد Rocketqa لدينا.
نقدم السيد Tydi، وهي مجموعة بيانات مرجعية متعددة اللغات لاسترجاع أحادي اللغات في أحد عشر لغة متنوعة من الناحية النموذجية، مصممة لتقييم الترتيب مع التمثيلات الكثيفة المستفادة.الهدف من هذا المورد هو أن يحفز البحث في تقنيات استرجاع كثيفة باللغات غير الإ نجليزية، بدافع من الملاحظات الحديثة أن التقنيات الحالية لتعلم التمثيل تؤدي سيئة عند تطبيقها على بيانات خارج التوزيع.كنقطة انطلاق، نحن نقدم خطوط خطوط خطوط البيانات الخاصة بهذه البيانات الجديدة القائمة على التكيف متعدد اللغات من DPR التي نسميها MDPR ".تبين التجارب أنه على الرغم من أن فعالية MDPR أقل بكثير من BM25، إلا أن تمثيلات كثيفة يبدو أنها توفر إشارات ذات أهمية قيمة، وتحسين نتائج BM25 في Sparse - الهجينة الكثيفة.بالإضافة إلى تحليلات نتائجنا، نناقش أيضا التحديات المستقبلية وتقديم جدول أعمال بحث في استرجاع كثيف متعدد اللغات.يمكن تنزيل السيد Tydi في https://github.com/castorini/mr.tydi.
نأخذ الخطوة الأولى نحو نقل النمط متعدد اللغات عن طريق إنشاء وإطلاق Xformal، وهو معيار من إعادة شحن رسمي متعدد النص غير الرسمي في البرتغالية البرازيلية والفرنسية والإيطالية.تشير النتائج على XFormal إلى أن نهج نقل النمط للحديث أداء قريبة من خطوط الأساس البسيطة، مما يشير إلى أن نقل النمط هو أكثر تحديا عند التحرك متعدد اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا