كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.
Abstractive summarization quality had large improvements since recent language pretraining techniques. However, currently there is a lack of datasets for the growing needs of conversation summarization applications. Thus we collected ForumSum, a diverse and high-quality conversation summarization dataset with human written summaries. The conversations in ForumSum dataset are collected from a wide variety of internet forums. To make the dataset easily expandable, we also release the process of dataset creation. Our experiments show that models trained on ForumSum have better zero-shot and few-shot transferability to other datasets than the existing large chat summarization dataset SAMSum. We also show that using a conversational corpus for pre-training improves the quality of the chat summarization model.
المراجع المستخدمة
https://aclanthology.org/
أصبح التعرف على العاطفة في محادثة متعددة الأحزاب (ermc) شعبية بشكل متزايد كقاعدة بحثية ناشئة في معالجة اللغة الطبيعية.يركز البحث المسبق على استكشاف معلومات متتابعة ولكن يتجاهل هياكل المحادثات.في هذه الورقة، يمكننا التحقيق في أهمية هياكل الخطاب في الت
تلقى تلخيص محادثة الجماع اهتماما كبيرا مؤخرا.ومع ذلك، غالبا ما تعاني هذه الملخصات التي تم إنشاؤها من محتوى غير كاف أو زائد أو غير صحيح، ويعزى ذلك إلى حد كبير إلى الخصائص غير المنظمة والمعقدة للتفاعلات البشرية البشرية.تحقيقا لهذه الغاية، نقترح نموذجا
توليد الاستجابات الإعلامية والمناسبة صعبة ولكنها مهمة لبناء أنظمة الحوار يشبه الإنسان. على الرغم من أن نماذج المحادثة المختلفة المعرفة قد اقترحت، إلا أن هذه النماذج لها قيود في الاستفادة من المعرفة التي تحدث بشكل غير منتظم في بيانات التدريب، ناهيك عن
تقنيات تعزيز الرفاهية والرعاية الصحية والرصد هي في ارتفاع. ومع ذلك، على الرغم من اهتمام المرضى، تعاني هذه التقنيات من اعتماد منخفض. فرضية واحدة لهذا التبني المحدود هو فقدان التفاعل البشري هو أمر أساسي لقاءات الطبيب المريض. في هذه الورقة، نسعى إلى معا
محادثة Deventangle تهدف إلى فصل الرسائل المتداخلة إلى جلسات منفصلة، وهي مهمة أساسية في فهم المحادثات متعددة الأحزاب. يعتمد العمل الحالي في محادثة DEVENTANGLEMELE بشكل كبير على مجموعات البيانات المشروح البشرية، وهي مكلفة للحصول عليها في الممارسة الع