للحفاظ على جودة الكلام لنظام الحوار إدراك شخصي، يجب تصفية الكلام غير اللائقة للشخصية بدقة. عند تقييم مدى ملاءمة عدد كبير من الكلام التعسفي الذي سيتم تسجيله في قاعدة بيانات الكلام لنظام حوار استرجاع يستند إلى استرجاع، لا يمكن استخدام مقاييس التقييم التي تتطلب مرجعا (أو الكلام "الصحيح) لكل هدف تقييم. بالإضافة إلى ذلك، يتطلب تصفية الكلام العملي القدرة على اختيار الكلام بناء على شدة خصائص الشخص. لذلك، نقوم بتطوير مقاييس يمكن استخدامها لالتقاط شدة خصائص الشخص ويمكن حسابها دون مراجع مصممة على أهداف التقييم. تحقيقا لهذه الغاية، نستكشف المقاييس الموجودة واقتراح مقاييس جديدة: احتمال مكبر الصوت شخصيا وشخصية الشخص. تظهر النتائج التجريبية أن مقاييسنا المقترحة تظهر ضعيفة على الارتباطات المعتدلة بين عشرات خصائص الشخصية القائمة على الأحكام الإنسانية وتتفوق مقاييس أخرى بشكل عام في تصفية الكلام غير اللائق لشخصية معينة.
To maintain utterance quality of a persona-aware dialog system, inappropriate utterances for the persona should be thoroughly filtered. When evaluating the appropriateness of a large number of arbitrary utterances to be registered in the utterance database of a retrieval-based dialog system, evaluation metrics that require a reference (or a correct'' utterance) for each evaluation target cannot be used. In addition, practical utterance filtering requires the ability to select utterances based on the intensity of persona characteristics. Therefore, we are developing metrics that can be used to capture the intensity of persona characteristics and can be computed without references tailored to the evaluation targets. To this end, we explore existing metrics and propose two new metrics: persona speaker probability and persona term salience. Experimental results show that our proposed metrics show weak to moderate correlations between scores of persona characteristics based on human judgments and outperform other metrics overall in filtering inappropriate utterances for particular personas.
المراجع المستخدمة
https://aclanthology.org/
مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك
نقدم عددا من التوصيات المنهجية المتعلقة بالتقييم عبر الإنترنت للأفيستار للترجمة النصية للإحداث النصي، مع التركيز على هيكل واستبيان وطول الاستبيان، وكذلك طرق إفرازات الردود وإخلاص
على الرغم من نجاحها في مجموعة متنوعة من مهام NLP، فإن نماذج اللغة المدربة مسبقا، بسبب اعتمادها الشديد على التركيز، تفشل في التقاط بفعالية معاني تعبيرات الكلمات المتعددة (MWES)، وخاصة التعابير. لذلك، هناك حاجة ماسة إلى مجموعات البيانات والأساليب لتحسي
إن ظهور التعلم العميق وتوافر مجموعات البيانات الكبيرة على نطاق واسع قد تسريع البحوث حول توليد اللغة الطبيعية مع التركيز على المهام الأحدث والنماذج الأفضل. مع تقدم سريع هذا، من الضروري تقييم مدى التقدم العلمي المحرز وتحديد المجالات / المكونات التي تحت
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب