مع النجاح المبكر لمساعدات الإجابة في الاستعلام مثل Alexa و Siri، فإن محاولات البحث لتوسيع إمكانات النظام من أتمتة خدمة التعامل هي الآن وفيرة. ومع ذلك، فقد عثرت الأنظمة الأولية بسرعة على عدم كفاية في الاعتماد على تقنيات التصنيف البسيطة لتحقيق مهمة الأتمتة بشكل فعال. التحدي الرئيسي هو أن الحوار يتضمن في كثير من الأحيان التعقيد في نوايا المستخدم (أو أغراض) معتلقها، مع مراعاة التغيير التلقائي، ويصعب تتبعه. علاوة على ذلك، لم تعتبر مجموعات البيانات العامة هذه المضاعفات والشروح الدلالية العامة غير موجودة والتي قد تؤدي إلى مشكلة تسديدة صفرية. بدافع من ما ورد أعلاه، نقترح شبكة انتباه بيرت علم الملصقات (Laban) للكشف عن الصفر طلقة متعددة النوايا. نقوم أولا بتشفير كلمات الإدخال مع بيرت وبناء مساحة مضمنة تسمية من خلال النظر في دلالات مضمنة في ملصقات النوايا. ثم يتم تصنيف كلمة الإدخال بناء على أوزان الإسقاط على كل تضمين نية في هذه المساحة المضمنة. نظهر أنه تمتد بنجاح إلى عدد قليل من الإعدادات / الصفر، حيث يكون جزء من ملصقات النوايا غير مرئية في بيانات التدريب، من خلال مراعاة الدلالات أيضا في هذه الملصقات النية غير المرئية. تظهر النتائج التجريبية أن نهجنا قادر على اكتشاف العديد من الملصقات النية غير المرئية بشكل صحيح. كما أنه يحقق الأداء الحديثة في خمس مجموعات بيانات متعددة النوايا في الحالات العادية.
With the early success of query-answer assistants such as Alexa and Siri, research attempts to expand system capabilities of handling service automation are now abundant. However, preliminary systems have quickly found the inadequacy in relying on simple classification techniques to effectively accomplish the automation task. The main challenge is that the dialogue often involves complexity in user's intents (or purposes) which are multiproned, subject to spontaneous change, and difficult to track. Furthermore, public datasets have not considered these complications and the general semantic annotations are lacking which may result in zero-shot problem. Motivated by the above, we propose a Label-Aware BERT Attention Network (LABAN) for zero-shot multi-intent detection. We first encode input utterances with BERT and construct a label embedded space by considering embedded semantics in intent labels. An input utterance is then classified based on its projection weights on each intent embedding in this embedded space. We show that it successfully extends to few/zero-shot setting where part of intent labels are unseen in training data, by also taking account of semantics in these unseen intent labels. Experimental results show that our approach is capable of detecting many unseen intent labels correctly. It also achieves the state-of-the-art performance on five multi-intent datasets in normal cases.
References used
https://aclanthology.org/
With counterfactual bandit learning, models can be trained based on positive and negative feedback received for historical predictions, with no labeled data needed. Such feedback is often available in real-world dialog systems, however, the modulariz
The lack of publicly available evaluation data for low-resource languages limits progress in Spoken Language Understanding (SLU). As key tasks like intent classification and slot filling require abundant training data, it is desirable to reuse existi
We present a systematic study on multilingual and cross-lingual intent detection (ID) from spoken data. The study leverages a new resource put forth in this work, termed MInDS-14, a first training and evaluation resource for the ID task with spoken d
The way information is generated and disseminated has changed dramatically over the last decade. Identifying the political perspective shaping the way events are discussed in the media becomes more important due to the sharp increase in the number of
Lack of training data presents a grand challenge to scaling out spoken language understanding (SLU) to low-resource languages. Although various data augmentation approaches have been proposed to synthesize training data in low-resource target languag