نقترح نموذج وضع العلامات العصبي الرواية على الجهاز يستخدم توقعات خالية من التضمين ومعلومات الأحرف لبناء تمثيلات كلمة مضغوطة لتعلم نموذج تسلسل باستخدام مزيج من LSTM ثنائي الاتجاه مع انتباه الذات و CRF. على عكس نماذج الحوار النموذجية التي تعتمد على هياكل الشبكة العصبية الضخمة والمعقدة ومحولات مدربة مسبقا على نطاق واسع لتحقيق نتائج أحدث، فإن طريقتنا تحقق نتائج قابلة للمقارنة إلى بيرت وحتى تتفوق على التبرع البديل الأصغر في استخراج فتحة المحادثة مهام. طريقةنا أسرع من نماذج بيرت مع تحقيق تخفيض كبير في الحجم النموذجي - نموذجنا يتطلب 135x و 81x عدد أقل من المعلمات النموذجية من Bert and Distilbert، على التوالي. نقوم بإجراء تجارب على مجموعات بيانات محادثة متعددة وإظهار تحسينات كبيرة على الأساليب الحالية بما في ذلك النماذج الحديثة على الجهاز. تظهر النتائج التجريبية ودراسات الاجتثاث أيضا أن نماذجنا العصبية تحافظ على بصمة الذاكرة الصغيرة اللازمة للعمل على الأجهزة الذكية، مع الحفاظ على الأداء العالي.
We propose a novel on-device neural sequence labeling model which uses embedding-free projections and character information to construct compact word representations to learn a sequence model using a combination of bidirectional LSTM with self-attention and CRF. Unlike typical dialog models that rely on huge, complex neural network architectures and large-scale pre-trained Transformers to achieve state-of-the-art results, our method achieves comparable results to BERT and even outperforms its smaller variant DistilBERT on conversational slot extraction tasks. Our method is faster than BERT models while achieving significant model size reduction--our model requires 135x and 81x fewer model parameters than BERT and DistilBERT, respectively. We conduct experiments on multiple conversational datasets and show significant improvements over existing methods including recent on-device models. Experimental results and ablation studies also show that our neural models preserve tiny memory footprint necessary to operate on smart devices, while still maintaining high performance.
References used
https://aclanthology.org/
Conversational semantic role labeling (CSRL) is believed to be a crucial step towards dialogue understanding. However, it remains a major challenge for existing CSRL parser to handle conversational structural information. In this paper, we present a
Automatically inducing high quality knowledge graphs from a given collection of documents still remains a challenging problem in AI. One way to make headway for this problem is through advancements in a related task known as slot filling. In this tas
Dialogue state tracking models play an important role in a task-oriented dialogue system. However, most of them model the slot types conditionally independently given the input. We discover that it may cause the model to be confused by slot types tha
Abstractive dialogue summarization suffers from a lots of factual errors, which are due to scattered salient elements in the multi-speaker information interaction process. In this work, we design a heterogeneous semantic slot graph with a slot-level
This paper describes a compact and effective model for low-latency passage retrieval in conversational search based on learned dense representations. Prior to our work, the state-of-the-art approach uses a multi-stage pipeline comprising conversation