ترغب بنشر مسار تعليمي؟ اضغط هنا

مجموعة بيانات من الأسئلة التي تسعى للحصول على معلومات وإجابات الراسية في أوراق البحث

A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers

264   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

قراء قراء أوراق البحث الأكاديمي غالبا ما يقرؤون بهدف الإجابة على أسئلة محددة. يمكن للإجابة على الأسئلة التي يمكن أن ترد على هذه الأسئلة إجراء استهلاك المحتوى أكثر كفاءة بكثير. ومع ذلك، فإن بناء هذه الأدوات يتطلب بيانات تعكس صعوبة المهمة الناشئة عن التفكير المعقد حول المطالبات المقدمة في أجزاء متعددة من الورقة. في المقابل، تحتوي الأسئلة الحالية على المعلومات المتعلقة بالمعلومات الرد على مجموعات البيانات عادة أسئلة حول المعلومات العامة من النوع العامل. لذلك نحن نقدم QASPER، مجموعة بيانات من 5049 سؤالا أكثر من 1585 ورقة معالجة اللغة الطبيعية. يتم كتابة كل سؤال بممارس NLP الذي قرأ فقط عنوان وإجراء ملخص للورقة المقابلة، والسؤال يسعى للحصول على معلومات موجودة في النص الكامل. ثم تتم الإجابة على الأسئلة من قبل مجموعة منفصلة من ممارسين NLP الذين يقدمون أيضا الأدلة الداعمة للإجابات. نجد أن النماذج الحالية التي تعمل بشكل جيد على مهام ضمان الجودة الأخرى لا تؤدي بشكل جيد في الإجابة على هذه الأسئلة، وأيضا الأد من البشر بنسبة 27 نقطة على الأقل عند الإجابة عليها من الأوراق بأكملها، تحفز المزيد من الأبحاث في الوثائق التي تأسست، حيث تسعى للحصول على المعلومات، والتي تم تصميم DataSet لدينا لتسهيل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد المعلومات التي تطلبها خطوة أساسية للسؤال المفتوح الإجابة على جمع الأدلة الكفاءة من كوربوس كبيرة. في الآونة الأخيرة، أثبتت النهج التكرارية أن تكون فعالة للأسئلة المعقدة، من خلال استرداد أدلة جديدة بشكل متكرر في كل خطوة. ومع ذلك، فإن جميع الأساليب التكرارية الحالية تقريبا تستخدم استراتيجيات محددة مسبقا، إما تطبيق نفس وظيفة الاسترجاع عدة مرات أو إصلاح ترتيب وظائف استرجاع مختلفة، والتي لا يمكنها الوفاء بالمتطلبات المتنوعة من الأسئلة المختلفة. في هذه الورقة، نقترح استراتيجية رواية تكيفية تسعى للحصول على معلومات عن أسئلة مفتوحة، وهي AISO. على وجه التحديد، يتم تصميم عملية الاسترجاع والأجوبة بأكملها كعملية اتخاذ قرار Markov الملحوظ جزئيا، حيث يتم تعريف ثلاثة أنواع من عمليات استرجاع (مثل E.G.، BM25 و DPR وارتباط التشعبي) وعملية إجابة واحدة كإجراءات. وفقا للسياسة المستفادة، يمكن ل AISO اختيار إجراءات استرجاع مناسبة ستكيفا للبحث عن الأدلة المفقودة في كل خطوة، بناء على الأدلة التي تم جمعها واستفسلة إعادة صياغة، أو إخراج الإجابة مباشرة عندما تكون مجموعة الأدلة كافية للسؤال. تبين تجارب في تشكيلة مفتوحة و hotpotqa fullwiki، التي تخدم مع معايير قافلة واحدة مفتوحة ومتعددة النطاق، أن AISO تفوقت على جميع الأساليب الأساسية مع استراتيجيات محددة مسبقا فيما يتعلق بتقييمات الاسترجاع والإجابة.
في هذه الورقة، نحدد وتقييم منهجية لاستخراج الأسئلة المكانية التي تعتمد على التاريخ من الحوارات البصرية.نقول أن السؤال يعتمد على التاريخ إذا كان يتطلب (أجزاء) تاريخ حواره المراد تفسيره.نقول أن بعض أنواع الأسئلة المرئية تحدد السياق الذي يعتمد عليه سؤال مكاني للمتابعة.نسمي السؤال الذي يقيد السياق: الزناد، ونحن نسمي السؤال المكاني الذي يتطلب الإجابة على سؤال الزناد: Zoomer.نستخرج تلقائيا أزواج الزناد و Zoomer المختلفة بناء على خاصية Visual التي تعتمد الأسئلة عليها (على سبيل المثال، اللون، رقم).نحل تدريجيا يدويا أزواج الزناد و Zoomer المستخرجة تلقائيا للتحقق من أن Zoomers التي تتطلب الزناد.نحن ننفذ بنية أساسية بسيطة بناء على تشفير سوتا متعددة الوسائط.نتائجنا تكشف أن هناك مساحة كبيرة لتحسين الإجابة على الأسئلة التي تعتمد على التاريخ.
يستخدم الأشخاص من المنتديات عبر الإنترنت إما أن نبحث عن معلومات أو للمساهمة به. بسبب شعبيتها المتنامية، تم إنشاء بعض المنتديات عبر الإنترنت خصيصا لتوفير الدعم والمساعدة والآراء للأشخاص الذين يعانون من مرض عقلي. الاكتئاب هو واحد من الأمراض النفسية الأ كثر شيوعا في جميع أنحاء العالم. يتواصل الأشخاص المزيد من المنتديات عبر الإنترنت للعثور على إجابات لأمراضهم النفسية. ومع ذلك، لا توجد آلية لقياس شدة الاكتئاب في كل وظيفة وإعطاء أهمية أعلى لأولئك الذين يشخصون بالاكتئاب بشدة. على الرغم من أن العديد من الأبحاث التي تستند إلى بيانات المنتدى عبر الإنترنت وتحديد الاكتئاب قد أجريت، نادرا ما يتم استكشاف شدة الاكتئاب. بالإضافة إلى ذلك، فإن غياب مجموعات البيانات سوف تنموي تطوير إجراءات تشخيصية جديدة للممارسين. من هذه الدراسة، نقدم مجموعة بيانات لدعم البحوث حول تقييم شدة الاكتئاب. النهج الحسابي لقياس عملية تلقائية، خطورة محددة من الاكتئاب هنا نهج جديد تماما. ومع ذلك، هناك حاجة إلى ذلك، هناك حاجة إلى هذا القياس الموضعي للاكتئاب في مشاركات المنتدى عبر الإنترنت لضمان موازين القياس المستخدمة في بحثنا يجتمع مع القواعد المتوقعة للبحث العلمي.
تركز أساليب استخراج العلاقة الحالية (إعادة) عادة على استخراج الحقائق العلائقية بين أزواج الكيان داخل جمل أو مستندات واحدة.ومع ذلك، لا يمكن استنتاج كمية كبيرة من الحقائق العلائقية في قواعد المعرفة إلا في جميع الوثائق في الممارسة.في هذا العمل، نقدم مشك لة إعادة الوثيقة العملية، مما يجعل خطوة أولية نحو اكتساب المعرفة في البرية.لتسهيل البحث، نقوم ببناء أول مجموعة بيانات عبر الوثيقة المشروح البشرية.مقارنة مع مجموعات البيانات الحالية، تقدم Codred تحديين رئيسيين: بالنظر إلى كيانين، (1) يتطلب إيجاد المستندات ذات الصلة التي يمكن أن توفر أدلة لتحديد علاقاتها؛(2) يتطلب التفكير في مستندات متعددة لاستخراج الحقائق العلائقية.نقوم بإجراء تجارب شاملة لإظهار أن Codred هو تحدي أساليب إعادة الخدمات القائمة بما في ذلك النماذج القاعدة القائمة على بيرت.
نقوم بتقديم Gerdalir، مجموعة بيانات ألمانية لاسترجاع المعلومات القانونية بناء على وثائق الحالة من منصة المعلومات القانونية المفتوحة المفتوحة.تتكون DataSet من استفسارات 123 ألفا، يتم تصنيف كل منها وثيقة واحدة ذات صلة على الأقل في مجموعة من وثائق الحال ة 131K.نقوم بإجراء العديد من التجارب الأساسية بما في ذلك BM25 وإعادة الرحالة العصبية لحديمع DataSet لدينا، نهدف إلى توفير معيار موحد لرجال الألمانية وترويج البحث المفتوح في هذا المجال.أبعد من ذلك، تضم مجموعة بياناتنا بيانات تدريبية كافية لاستخدامها كملقمة من النماذج في اللغة الألمانية أو اللغوية متعددة اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا