ترغب بنشر مسار تعليمي؟ اضغط هنا

multionedoc2dial: حوارات النمذجة في مستندات متعددة

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents

159   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح multionedoc2dial، مهمة جديدة ومجموعة بيانات على الحوارات الموجهة نحو الأهداف النمذجة في مستندات متعددة.يعمل معظم الأعمال السابقة على علاج النمذجة الحوار المحدد في المستندات كملقمة لفهم قراءة الآلة استنادا إلى وثيقة أو مقطع واحد معين.في هذا العمل، نهدف إلى معالجة سيناريوهات أكثر واقعية حيث تتضمن محادثة البحث عن المعلومات الموجهة نحو الأهداف موضوعات متعددة، وبالتالي يتم تقديمها على مستندات مختلفة.لتسهيل هذه المهمة، نقدم مجموعة بيانات جديدة تحتوي على حوارات ترتكز في مستندات متعددة من أربعة مجالات مختلفة.نحن نستكشف أيضا نمذجة السياقات القائمة على الحوار ومقرها المستندات في DataSet.نقدم نهج أساسية قوية ونتائج تجريبية مختلفة، تهدف إلى دعم المزيد من جهود البحث في هذه المهمة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتحول نماذج المحادثة واسعة النطاق إلى الاستفادة من المعرفة الخارجية لتحسين الدقة الواقعية في توليد الاستجابة.بالنظر إلى عدم التعليق على المعرفة الخارجية لعوريا الحوار واسعة النطاق، من المستحسن معرفة اختيار المعرفة وتوليد الاستجابة بطريقة غير منشأة.في هذه الورقة، نقترح أفلاطون كاج (توليد المعرفة المعزز)، ونهج تعليمي غير مخطط له لنمذجة المحادثة المحفوظة على المعرفة الطرفية.لكل سياق حوار، يتم اختيار عناصر المعرفة ذات الصلة من الأعلى وبعد ذلك في توليد الاستجابة المدرجة في المعرفة.يتم تحسين مكونين اختيار المعرفة وتوليد الاستجابة بشكل مشترك وفعال تحت هدف متوازن.النتائج التجريبية على اثنين من مجموعات البيانات المتاحة للجمهور التحقق من تفوق أفلاطون كاج.
نقترح مهمة مشتركة بشأن تلخيص حوارات سيناريو الحياة الحقيقية، وتحدي الحوار، لتشجيع الباحثين على مواجهة التحديات في تلخيص الحوار، والتي كانت أقل دراستها مجتمع التلخيص.تلخيص حوار سيناريو الحياة الحقيقية لديه احتمال كبير في التطبيق المحتمل في الدردشة بوت والمساعد الشخصي.أنه يحتوي على تحديات فريدة مثل هيكل الخطاب الخاص، وكور المعلومات، والبراغماتيون، والضمان الاجتماعي، والتي تتطلب تقنيات تعليمية تمثيل محددة للتعامل معها.نحن نبحث بعناية عن مجموعة بيانات تلخيص الحوار واسعة النطاق بناء على كوربوس للحوار العام المتعدد، وفتح الباب إلى جميع أنواع نماذج التلخيص.
غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع ين، مما يؤدي إلى تأثير تأييد يزيد من حية معلومات المعلومات. في هذه الورقة، نقوم بالنماذج تأثير تأييد المستندات عبر المستندات واستخدامها في تلخيص مستندات متعددة. تقوم طريقتنا بإنشاء ملخص من كل مستند، والتي تعمل كموثوقية لتحديد المحتوى البارز من مستندات أخرى. يتم استخدام قطاعات نصية تم تأييدها بشدة لإثراء نموذج فك التشفير العصبي لتعزيزها في ملخص مبيعات. تتمتع هذه الطريقة بإمكانيات كبيرة للتعلم من أمثلة أقل لتحديد المحتوى البارزين، مما يخفف من الحاجة إلى إعادة تدريب مكلفة عند تعديل مجموعة المستندات بشكل حيوي. من خلال تجارب واسعة النطاق حول مجموعات بيانات تلخيص المستندات متعددة الوثائق القياسية، نوضح فعالية أسلوبنا المقترح على خطوط خطوط أساسية منشورة قوية. أخيرا، ألقينا الضوء على اتجاهات البحث في المستقبل ومناقشة تحديات أوسع من هذه المهمة باستخدام دراسة حالة.
يتطلب التواصل السلس والفعال القدرة على أداء استنتاج المناشد الكامن أو الصريح. يركز معايير التفكير في المناولة (مثل Socialiqa و Commonsenseqa) بشكل رئيسي على المهمة التمييزية المتمثلة في اختيار الإجابة الصحيحة من مجموعة من المرشحين، ولا تنطوي على تولي د لغة تفاعلية كما هو الحال في الحوار. علاوة على ذلك، فإن مجموعات بيانات الحوار الحالية لا تركز صراحة على عرض المنطقي كجايت. في هذه الورقة، نقدم دراسة تجريبية للعموم في توليد استجابة الحوار. نحن أولا استخراج السيارات الحوارات العمومية من مجموعات بيانات الحوار الموجودة من خلال الاستفادة من Congalnet، الرسم البياني المعرفة للعموم. علاوة على ذلك، بناء على السياقات الاجتماعية / المواقف في Socialiqa، نجمع مجموعة بيانات حوار جديدة مع حوارات 25 كيلو بايت تهدف إلى عرض العمولة الاجتماعية في بيئة تفاعلية. نقوم بتقييم نماذج توليد الاستجابة المدربة باستخدام مجموعات البيانات هذه والعثور على النماذج المدربة على كلا من المستخرجة وبياناتنا التي تم جمعها تنتج الردود التي تظهر باستمرار المزيد من المنطقي من الأساس. أخيرا، نقترح نهج للتقييم التلقائي للعموم التي تعتمد على ميزات مشتقة من نماذج النقدية واللغة المدربة مسبقا وحوار الحوار، وتظهر ارتباطا معقولا بالتقييم البشري لجودة الردود.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا