اكتسبت أنظمة الحوار مثل Chatbots، والمهام مثل الإجابة على الأسئلة (QA) الجر في السنوات الأخيرة؛ بعد تقييم هذه الأنظمة لا تزال صعبة. وتشمل الأسباب مجموعة متنوعة كبيرة في السياقات واستخدام حالات هذه الأنظمة وكذلك التكلفة العالية للتقييم البشري. في هذه الورقة، نركز على نوع معين من أنظمة الحوار: تطبيقات تفاعل إزاحة الوقت (TOIAIA) ذكي، برامج محادثة محاكمة محادثات وجها لوجه بين البشر والحجيجات الإنسانية المسجلة مسبقا. ضمن القيد أن تویا هو نظام إخراج واحد يتفاعل مع المستخدمين مع توقعات مختلفة، نحدد تحديين: أولا، كيف نحدد إجابة جيدة؟ والثاني، ما هو متري مناسب لاستخدامها؟ نستكشف التحديات من خلال إنشاء مجموعة بيانات جديدة تحدد إجابات جيدة متعددة على أسئلة تویا محددة من خلال مساعدة عمال الأمازون الميكانيكية التركيون. يتيح لنا هذه الرأي من الحشد دراسة الاختلافات في كيفية إدراك المحققين الذين يتويا إجاباتها. تشمل مساهماتنا مجموعة البيانات المشروحة التي نجعلها متاحة للجمهور واقتراح معدل النجاح الخاص بك كتقسيط تقييم أكثر ملاءمة من مقاييس استرجاع الجودة التقليدية واسترجاع المعلومات.
Dialogue systems like chatbots, and tasks like question-answering (QA) have gained traction in recent years; yet evaluating such systems remains difficult. Reasons include the great variety in contexts and use cases for these systems as well as the high cost of human evaluation. In this paper, we focus on a specific type of dialogue systems: Time-Offset Interaction Applications (TOIAs) are intelligent, conversational software that simulates face-to-face conversations between humans and pre-recorded human avatars. Under the constraint that a TOIA is a single output system interacting with users with different expectations, we identify two challenges: first, how do we define a good' answer? and second, what's an appropriate metric to use? We explore both challenges through the creation of a novel dataset that identifies multiple good answers to specific TOIA questions through the help of Amazon Mechanical Turk workers. This view from the crowd' allows us to study the variations of how TOIA interrogators perceive its answers. Our contributions include the annotated dataset that we make publicly available and the proposal of Success Rate @k as an evaluation metric that is more appropriate than the traditional QA's and information retrieval's metrics.
References used
https://aclanthology.org/
Time-offset interaction applications (TOIA) allow simulating conversations with people who have previously recorded relevant video utterances, which are played in response to their interacting user. TOIAs have great potential for preserving cross-gen
Services that demanded by users via internet network are classified in two main
kinds, Services work in real time such as video and voice in real time and use UDP
protocol, and other services that work in non-real time such as web browsing (HTTP) a
The Shared Task on Evaluating Accuracy focused on techniques (both manual and automatic) for evaluating the factual accuracy of texts produced by neural NLG systems, in a sports-reporting domain. Four teams submitted evaluation techniques for this ta
This research introduces a new approach to reduce time execution
of processing programs, by reducing the amount of processed data,
especially in applications where the priority is to the execution time
of the program over the detailed information of captured pictures,
such as detection and tracking systems.
Crowdsourcing has been ubiquitously used for annotating enormous collections of data. However, the major obstacles to using crowd-sourced labels are noise and errors from non-expert annotations. In this work, two approaches dealing with the noise and