ترغب بنشر مسار تعليمي؟ اضغط هنا

مجموعة بيانات واسعة النطاق لتوليد الاستجابة التعاطفية

A Large-Scale Dataset for Empathetic Response Generation

197   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن فهم مشاعر المتكلم وإنتاج الاستجابات المناسبة مع اتصال العاطفة هو مهارة متتالية رئيسية لأنظمة الحوار التعاطفية.في هذه الورقة، نقترح تقنية بسيطة تسمى فك الترميز العاطفي لتوليد الاستجابة المتعاطفة.يمكن أن تتضمن طريقةنا بفعالية إشارات العاطفة أثناء كل خطوة فك التشفير، ويمكن تقديمها بالإضافة إلى ذلك بتشمس العاطفة المزدوجة الإضافية، والتي تتعلم تضمين منفصل للمتكلم والمستمع بالنظر إلى قاعدة العاطفة للحوار.تشير الدراسات التجريبية الواسعة إلى أن نماذجنا تعتبر أكثر تعاطفا عن طريق التقييمات البشرية، بالمقارنة مع العديد من الأساليب الرئيسية القوية للاستجابة التعاطفية.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.
التركيز النهج الحالية لتوليد الاستجابة المتعاطفة على تعلم نموذج للتنبؤ بميزة العاطفة وتوليد استجابة بناء على هذه الملصق وحققت نتائج واعدة. ومع ذلك، فإن السبب العاطفي، وهو عامل أساسي للاستجابة التعاطفية، يتم تجاهله. السبب العاطفة هو حافز للعواطف البشر ية. وإذ تدرك سبب العاطفة مفيدة لفهم المشاعر الإنسانية بشكل أفضل حتى تولد ردود أكثر تعاطفا. تحقيقا لهذه الغاية، نقترح إطارا جديدا يحسن توليد الاستجابة المتعاطفة من خلال التعرف على سبب العاطفة في المحادثات. على وجه التحديد، تم تصميم العاطفة المعقرة للتنبؤ بتسمية مشاعر السياق وتسلسل من الملصقات الموجهة نحو السبب، والتي تشير إلى ما إذا كانت الكلمة مرتبطة بالعاطفة. ثم نركض كلا من آليات الاهتمام الثابت والناعم لدمج السبب في جيل الاستجابة. تظهر التجارب أن دمج العاطفة تسبب المعلومات تعمل على تحسين أداء النموذج على كل من التعرف على العاطفة وتوليد الاستجابة.
يقدم هذا العمل ITIHASA، مجموعة بيانات ترجمة واسعة النطاق تحتوي على 93،000 زوج من Sanskrit Shlokas وترجماتها الإنجليزية.يتم استخراج شلوكاس من اثنين من الملصفات الهندية بمعنى.، رامايانا وماهاوصفنا أولا الدافع وراء عمالة مثل هذه البيانات ومتابعة التحليل التجريبي لإظهار الفروق الدقيقة.ثم نقاشنا بعد أداء نماذج الترجمة القياسية في هذه الجثة وإظهار أنه حتى بديهيات المحولات الحديثة تؤدي بشكل سيء، مع التركيز على تعقيد مجموعة البيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا