ستعلم وكلاء المحادثة المدربون على كوربورا كبيرة غير مبالين في التفاعلات البشرية أنماطا وسلوكيات محاكية فيها، والتي تشمل سلوكا هجوميا أو ساما.نقدم إطارا جديدا للإنسان والحلقة النموذجية لتقييم سمية هذه النماذج، ومقارنة مجموعة متنوعة من الأساليب الحالية في كل من حالات المستخدمين غير المصندين والموديين الذين يعرضون نقاط ضعفهم.ثم نذهب لاقتراح طريقتين روايتين لعوامل المحادثة الآمنة، إما عن طريق التدريب على البيانات من إطار عملنا الجديد للنسب في الحلقة في نظام من مرحلتين، أو "سلامة" في "الخبز"إلى نموذج الولادة نفسه.نجد تقنياتنا الجديدة هي (ط) أكثر أمانا من النماذج الحالية؛في حين أنه (2) الحفاظ على مقاييس قابلية الاستقرار مثل التجذير بالنسبة لشركة Chatbots الحديثة.على النقيض من ذلك، فإننا نعرض مشكلات سلامة خطيرة في الأنظمة القياسية الحالية مثل GPT2، حوالة، و BlenderBot.