الملخص نقدم إطارا نظري لفهم وتوقع تعقيد مهام تصنيف التسلسل، باستخدام تمديد جديد لنظرية حساسية وظيفة المنطقية. حساسية الوظيفة، نظرا للتوزيع على تسلسل الإدخال، يحدد عدد الفك القصير من تسلسل الإدخال الذي يمكن تغيير كل منهما بشكل فردي لتغيير الإخراج. نقول أن أساليب تصنيف التسلسل القياسية متحيزة نحو تعلم وظائف الحساسية المنخفضة، بحيث تكون المهام التي تتطلب حساسية عالية أكثر صعوبة. تحقيقا لهذه الغاية، نظهر تحليليا أن المصنفات المعجمية البسيطة يمكن أن تعبر فقط عن وظائف الحساسية المحددة، ونظرا تجريبيا أن وظائف الحساسية المنخفضة هي أسهل للتعلم من أجل LSTMS. ثم نقدر الحساسية في 15 مهام NLP، ويجد أن الحساسية أعلى على المهام الصعبة التي تم جمعها في الغراء أكثر من مهام تصنيف النص البسيطة، وأن الحساسية تتنبأ بأداء كل من المصنفات المعجمية البسيطة والفانيليا BILSTMS دون إشارة إلى تضمينات محاط بأذى. في غضون مهمة، تتوقع الحساسية المدخلات من الصعب على هذه النماذج البسيطة. تشير نتائجنا إلى أن نجاح التمثيلات السياقية المسبقة بشكل كبير ينبع جزئيا لأنهم يقدمون تمثيلات يمكن استخراج المعلومات من خلال فك رموز حساسية منخفضة الحساسية.
Abstract We introduce a theoretical framework for understanding and predicting the complexity of sequence classification tasks, using a novel extension of the theory of Boolean function sensitivity. The sensitivity of a function, given a distribution over input sequences, quantifies the number of disjoint subsets of the input sequence that can each be individually changed to change the output. We argue that standard sequence classification methods are biased towards learning low-sensitivity functions, so that tasks requiring high sensitivity are more difficult. To that end, we show analytically that simple lexical classifiers can only express functions of bounded sensitivity, and we show empirically that low-sensitivity functions are easier to learn for LSTMs. We then estimate sensitivity on 15 NLP tasks, finding that sensitivity is higher on challenging tasks collected in GLUE than on simple text classification tasks, and that sensitivity predicts the performance both of simple lexical classifiers and of vanilla BiLSTMs without pretrained contextualized embeddings. Within a task, sensitivity predicts which inputs are hard for such simple models. Our results suggest that the success of massively pretrained contextual representations stems in part because they provide representations from which information can be extracted by low-sensitivity decoders.
References used
https://aclanthology.org/
This paper studies continual learning (CL) of a sequence of aspect sentiment classification (ASC) tasks. Although some CL techniques have been proposed for document sentiment classification, we are not aware of any CL work on ASC. A CL system that in
Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as
End-to-end approaches for sequence tasks are becoming increasingly popular. Yet for complex sequence tasks, like speech translation, systems that cascade several models trained on sub-tasks have shown to be superior, suggesting that the compositional
Multi-label emotion classification is an important task in NLP and is essential to many applications. In this work, we propose a sequence-to-emotion (Seq2Emo) approach, which implicitly models emotion correlations in a bi-directional decoder. Experim
Prior methods to text segmentation are mostly at token level. Despite the adequacy, this nature limits their full potential to capture the long-term dependencies among segments. In this work, we propose a novel framework that incrementally segments n