أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المحولات اعتمادا محدودا كمكون مكونات في VAES النصية.الدراسات القائمة التي تضم المحولات في مبيعات النصوص (لي وآخرون، 2020؛ فانغ وآخرون.، 2021) تخفيف الانهيار الخلفي باستخدام محاولات ضخمة، وهي تقنية غير متوفرة لمعظم مجتمع البحث دون موارد حوسبة واسعة النطاق.نقدم خطة تدريبية بسيطة من مرحلتين لتحويل محول تسلسل إلى تسلسل إلى VIE مع Finetuning فقط.النموذج اللغوي الناتج هو تنافسية مع VAES المستندة إلى المحولات بشكل كبير في بعض المقاييس الداخلية مع الوقوع على الآخرين.لتسهيل التدريب، استكشفنا بشكل شامل تأثير تقنيات تخفيف الطيام الخلفي المشترك في الأدب.نطلق سرد كودنا للاستكشاف.
Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers have seen limited adoption as components of text VAEs. Existing studies that incorporate Transformers into text VAEs (Li et al., 2020; Fang et al., 2021) mitigate posterior collapse using massive pretraining, a technique unavailable to most of the research community without extensive computing resources. We present a simple two-phase training scheme to convert a sequence-to-sequence Transformer into a VAE with just finetuning. The resulting language model is competitive with massively pretrained Transformer-based VAEs in some internal metrics while falling short on others. To facilitate training we comprehensively explore the impact of common posterior collapse alleviation techniques in the literature. We release our code for reproducability.
المراجع المستخدمة
https://aclanthology.org/
تمت دراسة AcoNecoders Varitional كهدوء واعد لنموذج تعيينات واحدة إلى العديد من السياق للاستجابة في توليد استجابة الدردشة.ومع ذلك، غالبا ما تفشل في تعلم التعيينات المناسبة.أحد أسباب هذا الفشل هو التناقض بين الاستجابة وأخذ عينات متغير كامنة من توزيع تق
لقد كانت معروفة منذ فترة طويلة أن Sparsity هي تحيز حثي فعال لتعلم التمثيل الفعال للبيانات في المتجهات ذات الأبعاد الثابتة، وقد تم استكشافها في العديد من مجالات التعلم التمثيل. من اهتمام خاص بهذا العمل هو التحقيق في Sparsity ضمن إطار VAE الذي تم استكش
تمثل قدرة تعلم التعلم من تمثيلات الإعجاب خطوة رئيسية لأنظمة NLP القابلة للتفسير حيث تتيح السيطرة على الميزات اللغوية الكامنة.تعتمد معظم الأساليب التي يتعرض لها DEVENTANGLEMELLEMES على المتغيرات المستمرة، سواء بالنسبة للصور والنص.نقول أنه على الرغم من
يصور وصف نظام المهام المشترك هذا اثنين من بنيات الشبكة العصبية المقدمة إلى المسار الصحيح، من بينها النظام الفائز الذي سجل الأعلى في المهام الفرعية 7A و 7 ب.نقدم بالتفصيل النهج، خطوات المعالجة المسبقة والبنية المستخدمة لتحقيق النتائج المقدمة، وكذلك تو
استخراج العلاقات غير المدعومة من قبل أزواج كيان التجمع التي لها نفس العلاقات في النص. تقوم بعض الأساليب المتنوعة (VAE) المتنوعة (VAE) بتدريب نموذج استخراج العلاقة كترفيه يولد تصنيفات العلاقة. يتم تدريب وحدة فك الترميز جنبا إلى جنب مع التشفير لإعادة ب