ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن شخصيات المتكلم من نصوص المحادثة

Detecting Speaker Personas from Conversational Texts

444   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

شخصية مفيدة لتنبؤ استجابة الحوار. ومع ذلك، فإن الشخصية المستخدمة في الدراسات الحالية محددة مسبقا ويصعب الحصول عليها قبل محادثة. لمعالجة هذه المشكلة، نقوم بدراسة مهمة جديدة، اسمه مكبر صوت مكبر الصوت (SPD)، الذي يهدف إلى اكتشاف شخصيات المتكلم بناء على نص المحادثة العادي. في هذه المهمة، يتم تفتيش شخص أفضل مطابقة من المرشحين بالنظر إلى نص المحادثة. هذه مهمة مطابقة دهالية متعددة إلى العديد لأن كل من السياقات والشخصية في SPD تتكون من جمل متعددة. يعزز التبعية الطويلة الأجل والتكرار الديناميكي بين هذه الجمل صعوبة هذه المهمة. نحن نبني مجموعة بيانات ل SPD، التي يطلق عليها مواضيع شخصيا على أخصائي الدردشة (PMPC). علاوة على ذلك، نقيم العديد من النماذج الأساسية واقتراح شبكات مطابقة الكلام إلى الملف الشخصي (U2P) لهذه المهمة. تعمل نماذج U2P بتصبيح جيد يعالج كل من السياقات والعشرون كمجموعات من تسلسل متعددة. بعد ذلك، يتم تسجيل كل زوج تسلسل ويتم الحصول على درجة إجمالية قابلة للتفسير للحصول على زوج سياق شخصي من خلال التجميع. تظهر نتائج التقييم أن نماذج U2P تتفوق على نظرائهم الأساسيين بشكل كبير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصبح الصحة العقلية أكثر اهتماما مؤخرا مؤخرا، والاكتئاب كونه مرض شائع جدا في الوقت الحاضر، ولكن أيضا اضطرابات أخرى مثل القلق أو الاضطرابات القهرية الهوس أو اضطرابات التغذية أو اضطرابات نقص الانتباه / اضطرابات نقص الانتباه / فرط النشاط. توفر كمية كبيرة من البيانات من وسائل التواصل الاجتماعي والسلف الحديث لنماذج التعلم العميق وسيلة قيمة للكشف عن الاضطرابات النفسية تلقائيا من نص عادي. في هذه المقالة، نقوم بتجربة أساليب حديثة في مجموعة بيانات الصحة العقلية SMHD من Reddit (كوهان وآخرون، 2018). مساهمتنا ثلاثة أضعاف: استخدام مجموعة بيانات تتكون من المزيد من الأمراض أكثر من معظم الدراسات، مع التركيز على النص العام بدلا من مجموعات دعم الصحة العقلية والتصنيف من قبل الوظائف بدلا من الأفراد أو المجموعات. بالنسبة للتصنيف التلقائي للأمراض، فإننا نوظف ثلاث نماذج تعليمية عميقة: بيرت روبرتا و XLNet. نحن مضاعفة خط الأساس الذي أنشأه كوهان وآخرون. (2018)، على عينة فقط من مجموعة البيانات الخاصة بهم. نحن نحسن النتائج التي حصلت عليها جيانغ وآخرون. (2020) على تصنيف ما بعد المستوى. إن الدقة التي حصلت عليها مصنف اضطراب الأكل هو أعلى نظرا للوجود الحامل للمناقشات المتعلقة بالسعرات الحرارية والوجبات الغذائية والوصفات وما إلى ذلك، في حين أن الاكتئاب كان لديه أدنى درجة F1، ربما لأن الاكتئاب أكثر صعوبة في تحديد الأفعال اللغوية.
كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.
تصنيف قانون الحوار (DA) هو مهمة تصنيف الكلمات فيما يتعلق بالوظيفة التي يخدمها في حوار.الأساليب الحالية لإعلام نموذج تصنيف DA دون دمج التغييرات بدوره بين مكبرات الصوت في جميع أنحاء الحوار، وبالتالي تعاملها لا تختلف عن النص المكتوب غير التفاعلي.في هذه الورقة، نقترح دمج التغييرات بدوره في المحادثات بين مكبرات الصوت عند النمذجة DAS.على وجه التحديد، نحن نتعلم المحادثة - تحويل المتكلم بدوره لتمثيل المتكلم يتحول في محادثة؛ثم يتم دمج Attringdings بدوره المتحدث المستفاد مع تضمين الكلام لمهام التنفيذ في تصنيف DA.مع هذه الآلية البسيطة والفعالة، فإن نموذجنا قادر على التقاط الدلالات من محتوى الحوار أثناء محاسبة المتكلم المختلفة في محادثة.التحقق من الصحة على ثلاث مجموعات بيانات عامة معيار يدل على الأداء الفائق لنموذجنا.
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو ضع العام وإجراءات كل مكبر صوت.تقترح هذه الورقة استراتيجيات ذات إشراف ذاتي لتصحيح ما بعد تركز على المتكلم في تلخيص حوار المبادرة.على وجه التحديد، تميز نموذجنا أولا أي نوع من تصحيح المتكلم مطلوب في مشروع ملخص ثم يولد ملخص منقح وفقا للنوع المطلوب.تظهر النتائج التجريبية أن أسلوبنا المقترح بتصحيح مشاريع الملخصات بشكل كاف، ويتم تحسين الملخصات المنقحة بشكل كبير في كل من التقييمات الكمية والنوعية.
بالنسبة للأطفال، أدى النظام المدرب على جثة كبيرة من مكبرات الصوت الكبار أسوأ من النظام المدربين على جثة أصغر بكثير من خطاب الأطفال.هذا بسبب عدم تطابق الصوت بين التدريب واختبار البيانات.لالتقاط المزيد من التقلبات الصوتية، قامنا بتدريب نظام مشترك مع بي انات مختلطة من البالغين والأطفال.ينجذب النظام المشترك إلى أفضل أغاني للأطفال دون تدهور للبالغين.وبالتالي، فإن النظام الفردي المدرب مع البيانات المختلطة ينطبق على التحقق من السماعات لكل من البالغين والأطفال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا