للحفاظ على جودة الكلام لنظام الحوار إدراك شخصي، يجب تصفية الكلام غير اللائقة للشخصية بدقة. عند تقييم مدى ملاءمة عدد كبير من الكلام التعسفي الذي سيتم تسجيله في قاعدة بيانات الكلام لنظام حوار استرجاع يستند إلى استرجاع، لا يمكن استخدام مقاييس التقييم التي تتطلب مرجعا (أو الكلام "الصحيح) لكل هدف تقييم. بالإضافة إلى ذلك، يتطلب تصفية الكلام العملي القدرة على اختيار الكلام بناء على شدة خصائص الشخص. لذلك، نقوم بتطوير مقاييس يمكن استخدامها لالتقاط شدة خصائص الشخص ويمكن حسابها دون مراجع مصممة على أهداف التقييم. تحقيقا لهذه الغاية، نستكشف المقاييس الموجودة واقتراح مقاييس جديدة: احتمال مكبر الصوت شخصيا وشخصية الشخص. تظهر النتائج التجريبية أن مقاييسنا المقترحة تظهر ضعيفة على الارتباطات المعتدلة بين عشرات خصائص الشخصية القائمة على الأحكام الإنسانية وتتفوق مقاييس أخرى بشكل عام في تصفية الكلام غير اللائق لشخصية معينة.
To maintain utterance quality of a persona-aware dialog system, inappropriate utterances for the persona should be thoroughly filtered. When evaluating the appropriateness of a large number of arbitrary utterances to be registered in the utterance database of a retrieval-based dialog system, evaluation metrics that require a reference (or a correct'' utterance) for each evaluation target cannot be used. In addition, practical utterance filtering requires the ability to select utterances based on the intensity of persona characteristics. Therefore, we are developing metrics that can be used to capture the intensity of persona characteristics and can be computed without references tailored to the evaluation targets. To this end, we explore existing metrics and propose two new metrics: persona speaker probability and persona term salience. Experimental results show that our proposed metrics show weak to moderate correlations between scores of persona characteristics based on human judgments and outperform other metrics overall in filtering inappropriate utterances for particular personas.
References used
https://aclanthology.org/
Abstract The quality of a summarization evaluation metric is quantified by calculating the correlation between its scores and human annotations across a large number of summaries. Currently, it is unclear how precise these correlation estimates are,
We present a number of methodological recommendations concerning the online evaluation of avatars for text-to-sign translation, focusing on the structure, format and length of the questionnaire, as well as methods for eliciting and faithfully transcribing responses
Despite their success in a variety of NLP tasks, pre-trained language models, due to their heavy reliance on compositionality, fail in effectively capturing the meanings of multiword expressions (MWEs), especially idioms. Therefore, datasets and meth
The advent of Deep Learning and the availability of large scale datasets has accelerated research on Natural Language Generation with a focus on newer tasks and better models. With such rapid progress, it is vital to assess the extent of scientific p
This paper describes our contribution to the Shared Task ReproGen by Belz et al. (2021), which investigates the reproducibility of human evaluations in the context of Natural Language Generation. We selected the paper Generation of Company descriptio