حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إلى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.
Dense neural text retrieval has achieved promising results on open-domain Question Answering (QA), where latent representations of questions and passages are exploited for maximum inner product search in the retrieval process. However, current dense retrievers require splitting documents into short passages that usually contain local, partial and sometimes biased context, and highly depend on the splitting process. As a consequence, it may yield inaccurate and misleading hidden representations, thus deteriorating the final retrieval result. In this work, we propose Dense Hierarchical Retrieval (DHR), a hierarchical framework which can generate accurate dense representations of passages by utilizing both macroscopic semantics in the document and microscopic semantics specific to each passage. Specifically, a document-level retriever first identifies relevant documents, among which relevant passages are then retrieved by a passage-level retriever. The ranking of the retrieved passages will be further calibrated by examining the document-level relevance. In addition, hierarchical title structure and two negative sampling strategies (i.e., In-Doc and In-Sec negatives) are investigated. We apply DHR to large-scale open-domain QA datasets. DHR significantly outperforms the original dense passage retriever, and helps an end-to-end QA system outperform the strong baselines on multiple open-domain QA benchmarks.
المراجع المستخدمة
https://aclanthology.org/
في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تش
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل
نقدم سبارتا، وهي طريقة استرجاع عصبي رواية تعرض وعد كبير في الأداء والتعميم والتفسيرية للحصول على سؤال السؤال المفتوح. على عكس العديد من أساليب التصنيف العصبي التي تستخدم ناقلات كثيفة أقرب بحث جار، يتعلم سبارتا تمثيل متقطع يمكن تنفيذها بكفاءة كمؤشر مق
التقدم الملخص في النمذجة المتبادلة يعتمد على مجموعات التقييم الصعبة والواقعية والتنوع.نقدم أسئلة وأجوبة معارف متعددة اللغات (MKQA)، وهي سؤالا مفتوحا في مجال الإجابة على مجموعة التقييم التي تضم أزواج من الإجابات السؤال 10 كيلو محاذاة عبر 26 لغة متنوعة
يسأل الأسئلة المفتوحة الإجابة على تحديد إجابات الأسئلة التي أنشأتها المستخدم في مجموعات ضخمة من المستندات. أساليب Readriever-Reverse Graph النهج هي أسران كبيرتان من الحلول لهذه المهمة. يطبق قارئ المسترد أولا تقنيات استرجاع المعلومات للحصول على تحديد