لقد كانت معروفة منذ فترة طويلة أن Sparsity هي تحيز حثي فعال لتعلم التمثيل الفعال للبيانات في المتجهات ذات الأبعاد الثابتة، وقد تم استكشافها في العديد من مجالات التعلم التمثيل. من اهتمام خاص بهذا العمل هو التحقيق في Sparsity ضمن إطار VAE الذي تم استكشافه كثيرا في مجال الصورة، ولكنه كان يفتقر إلى مستوى الاستكشاف الأساسي في NLP. بالإضافة إلى ذلك، يتخلف NLP أيضا من حيث تعلم تمثيلات متفرق لوحدات نصية كبيرة على سبيل المثال، الجمل. نحن نستخدم VAES التي تحفز التمثيلات الكامنة المتفرقة لوحدات نصية كبيرة لمعالجة أوجه القصور المذكورة أعلاه. أولا، ننتقل في هذا الاتجاه من خلال قياس نجاح الحالة غير المعردة للدولة (SOTA) وغيرها من خطوط الأساس السريع في VAE للنص واقتراح نموذج VIE هرمي متفرق لمعالجة مشكلة الاستقرار في سوتا. بعد ذلك، ننظر إلى آثار Sparsity على تصنيف النص عبر 3 مجموعات من مجموعات البيانات، وتسليط الضوء على ارتباط بين أداء التمثيلات الكامنة المتفرعة حول مهام المصب وقدرته على تشفير المعلومات المتعلقة بالمهام.
It has been long known that sparsity is an effective inductive bias for learning efficient representation of data in vectors with fixed dimensionality, and it has been explored in many areas of representation learning. Of particular interest to this work is the investigation of the sparsity within the VAE framework which has been explored a lot in the image domain, but has been lacking even a basic level of exploration in NLP. Additionally, NLP is also lagging behind in terms of learning sparse representations of large units of text e.g., sentences. We use the VAEs that induce sparse latent representations of large units of text to address the aforementioned shortcomings. First, we move in this direction by measuring the success of unsupervised state-of-the-art (SOTA) and other strong VAE-based sparsification baselines for text and propose a hierarchical sparse VAE model to address the stability issue of SOTA. Then, we look at the implications of sparsity on text classification across 3 datasets, and highlight a link between performance of sparse latent representations on downstream tasks and its ability to encode task-related information.
References used
https://aclanthology.org/
Variational autoencoders have been studied as a promising approach to model one-to-many mappings from context to response in chat response generation. However, they often fail to learn proper mappings. One of the reasons for this failure is the discr
Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers ha
The ability of learning disentangled representations represents a major step for interpretable NLP systems as it allows latent linguistic features to be controlled. Most approaches to disentanglement rely on continuous variables, both for images and
Many NLP models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized text as a sequence of bytes via UTF-8,
In this paper we study pejorative language, an under-explored topic in computational linguistics. Unlike existing models of offensive language and hate speech, pejorative language manifests itself primarily at the lexical level, and describes a word