أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المحولات اعتمادا محدودا كمكون مكونات في VAES النصية.الدراسات القائمة التي تضم المحولات في مبيعات النصوص (لي وآخرون، 2020؛ فانغ وآخرون.، 2021) تخفيف الانهيار الخلفي باستخدام محاولات ضخمة، وهي تقنية غير متوفرة لمعظم مجتمع البحث دون موارد حوسبة واسعة النطاق.نقدم خطة تدريبية بسيطة من مرحلتين لتحويل محول تسلسل إلى تسلسل إلى VIE مع Finetuning فقط.النموذج اللغوي الناتج هو تنافسية مع VAES المستندة إلى المحولات بشكل كبير في بعض المقاييس الداخلية مع الوقوع على الآخرين.لتسهيل التدريب، استكشفنا بشكل شامل تأثير تقنيات تخفيف الطيام الخلفي المشترك في الأدب.نطلق سرد كودنا للاستكشاف.
Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers have seen limited adoption as components of text VAEs. Existing studies that incorporate Transformers into text VAEs (Li et al., 2020; Fang et al., 2021) mitigate posterior collapse using massive pretraining, a technique unavailable to most of the research community without extensive computing resources. We present a simple two-phase training scheme to convert a sequence-to-sequence Transformer into a VAE with just finetuning. The resulting language model is competitive with massively pretrained Transformer-based VAEs in some internal metrics while falling short on others. To facilitate training we comprehensively explore the impact of common posterior collapse alleviation techniques in the literature. We release our code for reproducability.
References used
https://aclanthology.org/
Variational autoencoders have been studied as a promising approach to model one-to-many mappings from context to response in chat response generation. However, they often fail to learn proper mappings. One of the reasons for this failure is the discr
It has been long known that sparsity is an effective inductive bias for learning efficient representation of data in vectors with fixed dimensionality, and it has been explored in many areas of representation learning. Of particular interest to this
The ability of learning disentangled representations represents a major step for interpretable NLP systems as it allows latent linguistic features to be controlled. Most approaches to disentanglement rely on continuous variables, both for images and
This shared task system description depicts two neural network architectures submitted to the ProfNER track, among them the winning system that scored highest in the two sub-tasks 7a and 7b. We present in detail the approach, preprocessing steps and
Unsupervised relation extraction works by clustering entity pairs that have the same relations in the text. Some existing variational autoencoder (VAE)-based approaches train the relation extraction model as an encoder that generates relation classif