كانت جودة تلخيص الجماعة لديها تحسينات كبيرة منذ تقنيات محاكاة اللغة الأخيرة.ومع ذلك، هناك حاليا نقص في مجموعات البيانات للاحتياجات المتزايدة لتطبيقات تلخيص المحادثة.وبالتالي نحن جمعنا منتديات، مجموعة بيانات ملخصة محادثة متنوعة وعالية الجودة مع ملخصات مكتوبة بشرية.تتم جمع المحادثات في DiversionMum DataSet من مجموعة واسعة من منتديات الإنترنت.لجعل مجموعة البيانات قابلة للتوسيع بسهولة، نقوم أيضا بإصدار عملية إنشاء DataSet.تظهر تجاربنا أن النماذج المدربة على Forumsum لديها أفضل صفر - لقدرة على تحويل القليل من الطوابق إلى مجموعات البيانات الأخرى من بيانات ملخصات الدردشة الكبيرة الحالية Samsum.نظهر أيضا أن استخدام Corpus Corpustation للمحدثين يحسن ما قبل التدريب على تحسين جودة نموذج تلخيص الدردشة.