ترغب بنشر مسار تعليمي؟ اضغط هنا

الجمع بين الاسترجاع المعجمي والكثيف لسؤال القفزات الفعالة الحسابية

Combining Lexical and Dense Retrieval for Computationally Efficient Multi-hop Question Answering

201   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في إجابة سؤال مفتوحة بسيطة (QA)، أصبح استرجاع كثيف أحد الأساليب القياسية لاستعادة المقاطع ذات الصلة إلى استنتاج إجابة.في الآونة الأخيرة، حققت الاسترجاع الكثيف أيضا نتائج أحدث النتائج في هفور تشاينا، حيث يلزم تجميع المعلومات من أجزاء متعددة من المعلومات والمناسبات عليها.على الرغم من نجاحها، فإن أساليب استرجاع كثيفة هي مكثفة حسابية، مما يتطلب تدريب GPUs المتعدد للتدريب.في هذا العمل، نقدم نهجا هجينا (معجميا وتكثيفا) تنافسية للغاية مع نماذج استرجاع كثيفة الحديث، مع مطالبة موارد حسابية أقل بكثير.بالإضافة إلى ذلك، نحن نقدم تقييم متعمق لأساليب استرجاع كثيفة على إعدادات الموارد الحاسوبية المحدودة، وهو شيء مفقود من الأدبيات الحالية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما تعتمد مهام الإجابة على الأسئلة التي تتطلب معلومات من وثائق متعددة على نموذج استرجاع لتحديد المعلومات ذات الصلة للتفكير. يتم تدريب نموذج الاسترجاع عادة على تعظيم احتمالية الأدلة الداعمة المسمى. ومع ذلك، عند الاسترجاع من نصائح نصية كبيرة مثل W ikipedia، غالبا ما يتم الحصول على الإجابة الصحيحة من مرشحين أدلة متعددة. علاوة على ذلك، لا يتم تصنيف جميع هؤلاء المرشحين على أنها إيجابية أثناء التوضيحية، مما يجعل إشارة التدريب ضعيفة وصاخبة. يتم تفاقم هذه المشكلة عندما تكون الأسئلة غير مرضية أو عندما تكون الإجابات منطقية، نظرا لأن النموذج لا يمكن أن يعتمد على التداخل المعجمي لإجراء اتصال بين الإجابة والدليل الدعم. نقوم بتطوير مخففة جديدة لاسترجاع المحدد الذي يتعامل مع الاستعلامات غير المجهولية، ونظهر أن التهميش حول هذه المجموعة أثناء التدريب يسمح للنموذج لتخفيف السلبيات الخاطئة في دعم التعليقات التوضيحية للأدلة. نحن نختبر طريقتنا في مجموعات بيانات QA متعددة الوثائق، IIRC و hotpotqa. على IIRC، نظهر أن النمذجة المشتركة مع التهميش يحسن أداء نموذجي بنسبة 5.5 F1 ونحقق أداء جديد من بين الفنون 50.5 F1. نوضح أيضا أن تهميش استرجاع ينتج عنه تحسن 4.1 ضمير QA F1 على خط الأساس غير المهمش في HOTPOTQA في إعداد FullWiki.
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل ى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.
تم استخدام شبكة الرسم العصبي الرسمية مؤخرا كأداة واعدة في مهمة الإجابة على السؤال المتعدد القفزات. ومع ذلك، فإن التحديثات غير الضرورية والإنشاءات الحافة البسيطة تمنع استخراج سبان إجابة دقيقة بطريقة أكثر مباشرة وتفسيرها. في هذه الورقة، نقترح نموذجا جد يدا من الرسم البياني للسباق الأول (BFR-Graph)، والذي يقدم رسالة جديدة تمرير طريقة تتوافق بشكل أفضل مع عملية التفكير. في Bfr-Graph، يجب أن تبدأ رسالة المنطق من العقدة والسؤال إلى الجمل التالية عقدة هوب من القفزة حتى يتم تمرير جميع الحواف، والتي يمكن أن تمنع كل عقدة بشكل فعال من التعويض الزائد أو تحديث عدة مرات غير ضرورية وبعد لإدخال المزيد من الدلالات، نحدد أيضا الرسم البياني للمنطق كشركة بيانية مرجحة مع النظر في عدد كيانات الحدوث والمسافة بين الجمل. ثم نقدم طريقة أكثر مباشرة وتفسيرا لتجميع الدرجات من مستويات مختلفة من الحبيبات القائمة على GNN. على المتصدرين Hotpotqa، يحقق BFR-Graph المقترح على التنبؤ الحديث في الإجابة على التنبؤ.
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل مع سياق الجدول.نقدم إجراءات فعالة مسبقة التدريب لاستردادنا وتحسين جودة الاسترجاع مع السلبيات الصلبة الملغومة.نظرا لأن مجموعات البيانات ذات الصلة مفقودة، فإننا نستخلص مجموعة فرعية من الأسئلة الطبيعية (Kwiatkowski et al.، 2019) في مجموعة بيانات QA.نجد أن المسترد الخاص بنا يحسن نتائج الاسترجاع من 72.0 إلى 81.1 استدعاء @ 10 وتنفذ QA نهاية إلى نهاية من 33.8 إلى 37.7 مباراة دقيقة، عبر المسترد القائم على بيرت.
كان هناك تقدم كبير في مجال الإجابة على الأسئلة الاستخراجية (EQA) في السنوات الأخيرة.ومع ذلك، فإن معظمهم يعتمدون على التوضيحية الخاصة بالإجابة في الممرات المقابلة.في هذا العمل، نتعلم مشكلة EQA عندما لا توجد شروح موجودة للإجابة فترة الإجابة، أي، عندما تحتوي DataSet على أسئلة فقط والممرات المقابلة.تعتمد طريقتنا على الترميز التلقائي للسؤال الذي يؤدي سؤالا يرد على المهمة أثناء الترميز ومهمة توليد الأسئلة أثناء فك التشفير.نظهر أن طريقتنا تعمل بشكل جيد في إعداد صفرية ويمكن أن توفر خسارة إضافية لتعزيز الأداء ل EQA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا