نقدم محولات الاحتجاط بالانتقاد الذاتي (البرنامج النصي) لتمثيل تعلم النص.يستعيد أساليب النمذجة التي تحذر باللغة الشائعة (MM) مثل بيرت بعض الرموز مع [قناع] وتدريب التشفير لاستعادتها، في حين تربط إلكترا أن تدرب تمييزا للكشف عن الرموز المستبدل التي اقترحها مولد.على النقيض من ذلك، ندرب نموذج لغة كما هو الحال في الامتيازات والرهون البحرية وأكثر تمييزا تمييزا أو ناقدا فوق التشفير دون استخدام أي معلمات إضافية.وهذا هو، النموذج نفسه هو ناقد.يجمع البرنامج النصي بين التدريب الامتيازات والرهون البحرية والتدريب التمييزي لتعلم التمثيلات الغنية وكفاءة الحساب وعينة.نحن نوضح تحسين كفاءة عينة في الاحتجاج والتمثيلات المعززة التي يتضح من تحسين أداء المهام المصب على الغراء والتشكيل فوق خطوط خطوط خطوط خطوط خطوط طويلة.أيضا، يمكن استخدام درجات الناقد الذاتي بشكل مباشر كحب من السجل الزائف للتسجيل الفعال.
We introduce Self-CRItic Pretraining Transformers (SCRIPT) for representation learning of text. The popular masked language modeling (MLM) pretraining methods like BERT replace some tokens with [MASK] and an encoder is trained to recover them, while ELECTRA trains a discriminator to detect replaced tokens proposed by a generator. In contrast, we train a language model as in MLM and further derive a discriminator or critic on top of the encoder without using any additional parameters. That is, the model itself is a critic. SCRIPT combines MLM training and discriminative training for learning rich representations and compute- and sample-efficiency. We demonstrate improved sample-efficiency in pretraining and enhanced representations evidenced by improved downstream task performance on GLUE and SQuAD over strong baselines. Also, the self-critic scores can be directly used as pseudo-log-likelihood for efficient scoring.
References used
https://aclanthology.org/
Scripts capture commonsense knowledge about everyday activities and their participants. Script knowledge proved useful in a number of NLP tasks, such as referent prediction, discourse classification, and story generation. A crucial step for the explo
Transformer models are permutation equivariant. To supply the order and type information of the input tokens, position and segment embeddings are usually added to the input. Recent works proposed variations of positional encodings with relative posit
Transformer and its variants have achieved great success in natural language processing. Since Transformer models are huge in size, serving these models is a challenge for real industrial applications. In this paper, we propose , a highly efficient i
The Transformer translation model is based on the multi-head attention mechanism, which can be parallelized easily. The multi-head attention network performs the scaled dot-product attention function in parallel, empowering the model by jointly atten
The outstanding performance of transformer-based language models on a great variety of NLP and NLU tasks has stimulated interest in exploration of their inner workings. Recent research has been primarily focused on higher-level and complex linguistic