غالبا ما تعتمد مهام الإجابة على الأسئلة التي تتطلب معلومات من وثائق متعددة على نموذج استرجاع لتحديد المعلومات ذات الصلة للتفكير. يتم تدريب نموذج الاسترجاع عادة على تعظيم احتمالية الأدلة الداعمة المسمى. ومع ذلك، عند الاسترجاع من نصائح نصية كبيرة مثل Wikipedia، غالبا ما يتم الحصول على الإجابة الصحيحة من مرشحين أدلة متعددة. علاوة على ذلك، لا يتم تصنيف جميع هؤلاء المرشحين على أنها إيجابية أثناء التوضيحية، مما يجعل إشارة التدريب ضعيفة وصاخبة. يتم تفاقم هذه المشكلة عندما تكون الأسئلة غير مرضية أو عندما تكون الإجابات منطقية، نظرا لأن النموذج لا يمكن أن يعتمد على التداخل المعجمي لإجراء اتصال بين الإجابة والدليل الدعم. نقوم بتطوير مخففة جديدة لاسترجاع المحدد الذي يتعامل مع الاستعلامات غير المجهولية، ونظهر أن التهميش حول هذه المجموعة أثناء التدريب يسمح للنموذج لتخفيف السلبيات الخاطئة في دعم التعليقات التوضيحية للأدلة. نحن نختبر طريقتنا في مجموعات بيانات QA متعددة الوثائق، IIRC و hotpotqa. على IIRC، نظهر أن النمذجة المشتركة مع التهميش يحسن أداء نموذجي بنسبة 5.5 F1 ونحقق أداء جديد من بين الفنون 50.5 F1. نوضح أيضا أن تهميش استرجاع ينتج عنه تحسن 4.1 ضمير QA F1 على خط الأساس غير المهمش في HOTPOTQA في إعداد FullWiki.
Question Answering (QA) tasks requiring information from multiple documents often rely on a retrieval model to identify relevant information for reasoning. The retrieval model is typically trained to maximize the likelihood of the labeled supporting evidence. However, when retrieving from large text corpora such as Wikipedia, the correct answer can often be obtained from multiple evidence candidates. Moreover, not all such candidates are labeled as positive during annotation, rendering the training signal weak and noisy. This problem is exacerbated when the questions are unanswerable or when the answers are Boolean, since the model cannot rely on lexical overlap to make a connection between the answer and supporting evidence. We develop a new parameterization of set-valued retrieval that handles unanswerable queries, and we show that marginalizing over this set during training allows a model to mitigate false negatives in supporting evidence annotations. We test our method on two multi-document QA datasets, IIRC and HotpotQA. On IIRC, we show that joint modeling with marginalization improves model performance by 5.5 F1 points and achieves a new state-of-the-art performance of 50.5 F1. We also show that retrieval marginalization results in 4.1 QA F1 improvement over a non-marginalized baseline on HotpotQA in the fullwiki setting.
المراجع المستخدمة
https://aclanthology.org/
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل
نماذج الإجابة على الأسئلة (QA) تستخدم أنظمة المسترد والقارئ للإجابة على الأسئلة.يمكن الاعتماد على البيانات التدريبية من قبل أنظمة ضمان الجودة أو تعكس عدم المساواة من خلال ردودهم.يتم تدريب العديد من نماذج QA، مثل تلك الخاصة ب DataSet Squad، على مجموعة
تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع
في إجابة سؤال مفتوحة بسيطة (QA)، أصبح استرجاع كثيف أحد الأساليب القياسية لاستعادة المقاطع ذات الصلة إلى استنتاج إجابة.في الآونة الأخيرة، حققت الاسترجاع الكثيف أيضا نتائج أحدث النتائج في هفور تشاينا، حيث يلزم تجميع المعلومات من أجزاء متعددة من المعلوم