ترغب بنشر مسار تعليمي؟ اضغط هنا

Germanquad و Germandpr: تحسين سؤال غير الإنجليزية الإجابة على واسترجاع المرور

GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval

331   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التحدي الرئيسي في البحث عن القراءة غير الإنجليزية للآلة في الرد على الأسئلة (QA) هو عدم وجود مجموعات البيانات المشروح.في هذه الورقة، نقدم Germanquad، مجموعة بيانات من 13،722 مسألة استخراج / إجابة أزواج.لتحسين استنساخ نهج إنشاء DataSet و FOUSTER QA أبحاث حول اللغات الأخرى، فإننا تلخيص الدروس المستفادة وتقييم إعادة صياغة أزواج السؤال / الإجابة كوسيلة لتسريع عملية الشرح.يتفوق نموذج QA الاستخراجي المدرب على Germanquad بشكل كبير على نماذج متعددة اللغات ويظهر أيضا أن بيانات التدريب التي ترجمتها الجهاز لا يمكنها استبدال بيانات التدريب باليد في اللغة المستهدفة.أخيرا، نوضح مجموعة واسعة من تطبيقات Germanquad عن طريق تكييفها إلى Germandpr، ومجموعة بيانات تدريبية لاسترجاع المقطع الكثيف (DPR) وتدريب وتقييم واحدة من أول طرازات DPR غير الإنجليزية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تفترض السؤال المتعدد اللغات الرد على المهام عادة أن الإجابات موجودة بنفس اللغة مثل السؤال. ومع ذلك، في الممارسة العملية، تواجه العديد من اللغات كل من ندرة المعلومات --- حيث تحتوي اللغات على عدد قليل من المقالات المرجعية --- واستاجةم المعلومات --- أين الأسئلة المرجعية المفاهيم من الثقافات الأخرى. يمتد هذا العمل سؤالا مفتوحا للاسترجاع الرد على الإعداد المتبادل الذي تمكن الأسئلة من لغة واحدة للإجابة على محتوى الإجابة من لغة أخرى. نحن نبني مجموعة بيانات واسعة النطاق تم بناؤها على أسئلة 40K تسعى للحصول على معلومات عبر 7 لغات غير الإنجليزية متنوعة لا يمكن أن تجد Tydi QA إجابات لغة نفسها. استنادا إلى هذه البيانات، نقدم إطار عمل، يسمى سؤالا عبر اللغات المفتوح استرجاع الإجابة (XOR QA)، الذي يتكون من ثلاث مهام جديدة تنطوي على استرجاع وثائق عبر اللغات من موارد متعددة اللغات والإنجليزية. نقوم بإنشاء خطوط الأساس مع أنظمة ترجمة من الآلة الحديثة ونماذج مسببة الاحتياطية عبر اللغات. تشير النتائج التجريبية إلى أن XOR QA هي مهمة صعبة سيسهل تطوير تقنيات جديدة للإجابة على الأسئلة متعددة اللغات. تتوفر بياناتنا ورمزنا في https://nlp.cs.washington.edu/xorqa/.
في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تش فير مزدوج بشكل فعال بسبب التحديات بما في ذلك التناقض بين التدريب والاستدلال، ووجود إيجابيات غير محدودة وبيانات تدريب محدودة. لمعالجة هذه التحديات، نقترح نهج تدريبي محسن، يسمى Rocketqa، لتحسين استرجاع الممر الكثيف. نجعل ثلاث مساهمات تقنية رئيسية في Rocketqa، وهي السلبيات عبر الدفعة، السلبيات الصلبة الشاقة وزعم البيانات. تظهر نتائج التجربة أن Rocketqa تتفوق بشكل كبير على النماذج السابقة من بين الفنادق السابقة على كل من MSMARCO والأسئلة الطبيعية. نقوم أيضا بإجراء تجارب مكثفة لفحص فعالية الاستراتيجيات الثلاث في Rocketqa. علاوة على ذلك، نوضح أن أداء ضمان الجودة المناسبة يمكن تحسينه بناء على مسترد Rocketqa لدينا.
معظم أساليب الإجابة على الأسئلة القائمة على المعرفة الحالية (KBQA) تعلم أولا تعيين السؤال المحدد في رسم بياني للاستعلام، ثم قم بتحويل الرسم البياني إلى استعلام قابل للتنفيذ للعثور على الإجابة.عادة ما يتم توسيع الرسم البياني للاستعلام تدريجيا من كيان الموضوع بناء على نموذج تنبؤ التسلسل.في هذه الورقة، نقترح حل جديد للاستعلام عن جيل الرسم البياني الذي يعمل بالطريقة المعاكسة: نبدأ مع قاعدة المعرفة بأكملها وتقليصها تدريجيا إلى الرسم البياني للاستعلام المرغوب فيه.يعمل هذا النهج على تحسين كفاءة ودقة جيل الرسم البياني للاستعلام، خاصة بالنسبة لأسئلة قفز متعددة المعقدة.تظهر النتائج التجريبية أن طريقتنا تحقق أداء حديثة على مجموعة بيانات ComplexwebQuestion (CWQ).
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل مع سياق الجدول.نقدم إجراءات فعالة مسبقة التدريب لاستردادنا وتحسين جودة الاسترجاع مع السلبيات الصلبة الملغومة.نظرا لأن مجموعات البيانات ذات الصلة مفقودة، فإننا نستخلص مجموعة فرعية من الأسئلة الطبيعية (Kwiatkowski et al.، 2019) في مجموعة بيانات QA.نجد أن المسترد الخاص بنا يحسن نتائج الاسترجاع من 72.0 إلى 81.1 استدعاء @ 10 وتنفذ QA نهاية إلى نهاية من 33.8 إلى 37.7 مباراة دقيقة، عبر المسترد القائم على بيرت.
حققت استرجاع النص العصبي الكثيف نتائج واعدة حول السؤال المفتوح للنطاق الرد (QA)، حيث يتم استغلال تمثيلات كامنة للأسئلة والمراجيات للحصول على أقصى قدر من البحث الداخلي في عملية الاسترجاع. ومع ذلك، فإن المستردات الكثيفة الحالية تتطلب تقسيم المستندات إل ى مقاطع قصيرة تحتوي عادة على سياق محلي جزئي ومحازي في بعض الأحيان، وتعتمد بشدة على عملية تقسيم. ونتيجة لذلك، قد تسفر عن تعويضات مخفية غير دقيقة ومضللة، مما تدهور نتيجة الاسترجاع النهائي. في هذا العمل، نقترح استرجاع هرمي هرمي كثيف (DHR)، وهو إطار هرمي يمكنه إنشاء تمثيلات كثيفة دقيقة من الممرات من خلال الاستفادة من كل من الدلالات الكبيرة في الوثيقة والدليل المجهري المحدد لكل مقطع. على وجه التحديد، يحدد المسترد على مستوى المستند أولا المستندات ذات الصلة، من بينها يتم استرداد المقاطع ذات الصلة من خلال المسترد لمستوى المقاطع. سيتم معايرة ترتيب الممرات المستردة من خلال دراسة أهمية مستوى الوثيقة. بالإضافة إلى ذلك، يتم التحقيق في هيكل العنوان الهرمي واستراتيجيات أخذ العينات السلبية (I.E.، في السلبيات في السلبيات) في السلبيات). نطبق DHR إلى مجموعات بيانات QA مفتوحة على نطاق واسع. تتفوق DHR بشكل كبير على استرداد المقطع الكثيف الأصلي، ويساعد نظام ضمان الجودة في نهاية إلى نهاية يتفوق على الأساس القوي على معايير QA متعددة النطاق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا