ستعلم وكلاء المحادثة المدربون على كوربورا كبيرة غير مبالين في التفاعلات البشرية أنماطا وسلوكيات محاكية فيها، والتي تشمل سلوكا هجوميا أو ساما.نقدم إطارا جديدا للإنسان والحلقة النموذجية لتقييم سمية هذه النماذج، ومقارنة مجموعة متنوعة من الأساليب الحالية في كل من حالات المستخدمين غير المصندين والموديين الذين يعرضون نقاط ضعفهم.ثم نذهب لاقتراح طريقتين روايتين لعوامل المحادثة الآمنة، إما عن طريق التدريب على البيانات من إطار عملنا الجديد للنسب في الحلقة في نظام من مرحلتين، أو "سلامة" في "الخبز"إلى نموذج الولادة نفسه.نجد تقنياتنا الجديدة هي (ط) أكثر أمانا من النماذج الحالية؛في حين أنه (2) الحفاظ على مقاييس قابلية الاستقرار مثل التجذير بالنسبة لشركة Chatbots الحديثة.على النقيض من ذلك، فإننا نعرض مشكلات سلامة خطيرة في الأنظمة القياسية الحالية مثل GPT2، حوالة، و BlenderBot.
Conversational agents trained on large unlabeled corpora of human interactions will learn patterns and mimic behaviors therein, which include offensive or otherwise toxic behavior. We introduce a new human-and-model-in-the-loop framework for evaluating the toxicity of such models, and compare a variety of existing methods in both the cases of non-adversarial and adversarial users that expose their weaknesses. We then go on to propose two novel methods for safe conversational agents, by either training on data from our new human-and-model-in-the-loop framework in a two-stage system, or ''baking-in'' safety to the generative model itself. We find our new techniques are (i) safer than existing models; while (ii) maintaining usability metrics such as engagingness relative to state-of-the-art chatbots. In contrast, we expose serious safety issues in existing standard systems like GPT2, DialoGPT, and BlenderBot.
المراجع المستخدمة
https://aclanthology.org/
تتطلب قراءة آلات المحادثة (CMR) آلات تواصل مع البشر من خلال التفاعلات متعددة الدورات بين دولتي الحوار البارز في عمليات صنع القرار وعمليات توليد الأسئلة.في إعدادات CMR المفتوحة، كسيناريو أكثر واقعية، ستكون المعرفة الخلفية المستردة صاخبة، مما يؤدي إلى
إن تحديد المعرفة ذات الصلة التي سيتم استخدامها في أنظمة المحادثة التي تستند إلى وثائق طويلة أمر بالغ الأهمية لتوليد الاستجابة الفعال.نقدم نموذج تعريف المعرفة الذي يرفع بنية المستند إلى توفير ترميزات مرور محكوم بحري للحوار ومعرفة تحديد المواقع ذات الص
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة
رضا المستخدمين على مستوى الدوران هو أحد أهم مقاييس الأداء لعوامل المحادثة. يمكن استخدامه لمراقبة أداء الوكيل وتوفير رؤى حول تجارب المستخدم المعيبة. في حين أن التعلم العميق المنتهي في النهاية قد أظهر نتائج واعدة، فإن الوصول إلى عدد كبير من العينات الم
سيحتاج الوكلاء الذكيون الذين يشترفون بمفاهيم جديدة في البيئات المحددة إلى طلب أسئلة زملائهم البشريين الذين يتعلمون عن العالم المادي.لفهم هذه المشكلة بشكل أفضل، نحتاج إلى بيانات حول طرح الأسئلة في التفاعلات القائمة على المهمة المحددة.تحقيقا لهذه الغاي