نقدم محولات الاحتجاط بالانتقاد الذاتي (البرنامج النصي) لتمثيل تعلم النص.يستعيد أساليب النمذجة التي تحذر باللغة الشائعة (MM) مثل بيرت بعض الرموز مع [قناع] وتدريب التشفير لاستعادتها، في حين تربط إلكترا أن تدرب تمييزا للكشف عن الرموز المستبدل التي اقترحها مولد.على النقيض من ذلك، ندرب نموذج لغة كما هو الحال في الامتيازات والرهون البحرية وأكثر تمييزا تمييزا أو ناقدا فوق التشفير دون استخدام أي معلمات إضافية.وهذا هو، النموذج نفسه هو ناقد.يجمع البرنامج النصي بين التدريب الامتيازات والرهون البحرية والتدريب التمييزي لتعلم التمثيلات الغنية وكفاءة الحساب وعينة.نحن نوضح تحسين كفاءة عينة في الاحتجاج والتمثيلات المعززة التي يتضح من تحسين أداء المهام المصب على الغراء والتشكيل فوق خطوط خطوط خطوط خطوط خطوط طويلة.أيضا، يمكن استخدام درجات الناقد الذاتي بشكل مباشر كحب من السجل الزائف للتسجيل الفعال.
We introduce Self-CRItic Pretraining Transformers (SCRIPT) for representation learning of text. The popular masked language modeling (MLM) pretraining methods like BERT replace some tokens with [MASK] and an encoder is trained to recover them, while ELECTRA trains a discriminator to detect replaced tokens proposed by a generator. In contrast, we train a language model as in MLM and further derive a discriminator or critic on top of the encoder without using any additional parameters. That is, the model itself is a critic. SCRIPT combines MLM training and discriminative training for learning rich representations and compute- and sample-efficiency. We demonstrate improved sample-efficiency in pretraining and enhanced representations evidenced by improved downstream task performance on GLUE and SQuAD over strong baselines. Also, the self-critic scores can be directly used as pseudo-log-likelihood for efficient scoring.
المراجع المستخدمة
https://aclanthology.org/
النصوص التي تلتقط المعرفة المنطقية حول الأنشطة اليومية والمشاركين.أثبتت معرفة البرنامج النصي مفيدة في عدد من مهام NLP، مثل التنبؤ المراجع، تصنيف الخطاب، وتوليد القصة.إن خطوة حاسمة لاستغلال معرفة البرنامج النصي هي تحليل البرنامج النصي، ومهمة وضع علامة
نماذج المحولات هي التقليب equivariant.لتزويد الطلب واكتب معلومات الرموز المميزة والإدخال، عادة ما تتم إضافتها إلى المدخلات.تعمل الأعمال الأخيرة الاختلافات المقترحة من الترميزات الموضعية مع ترميزات الموضع النسبي تحقيق أداء أفضل.يوضح تحليلنا أن المكسب
حقق محول ومتغيراتها نجاحا كبيرا في معالجة اللغة الطبيعية.نظرا لأن طرازات المحولات ضخمة الحجم، فإن خدمة هذه النماذج هي تحديا للتطبيقات الصناعية الحقيقية.في هذه الورقة، نقترح، مكتبة الاستدلال عالية الكفاءة للنماذج في عائلة المحولات.يتضمن سلسلة من تقنيا
يعتمد نموذج الترجمة المحول على آلية الاهتمام المتعدد الرأس، والتي يمكن توازتها بسهولة.تقوم شبكة الاهتمام المتعددة بالاهتمام بأداء وظيفة اهتمام المنتج DOT-Product المعزز بالتوازي، مما تمكن من تمكين النموذج من خلال حضور المعلومات المشتركة إلى معلومات م
حفز الأداء المتميز لنماذج اللغة القائمة على المحولات في مجموعة كبيرة ومتنوعة من المهام NLP و NLU الاهتمام باستكشاف أعمالها الداخلية. ركزت الأبحاث الحديثة بشكل أساسي على ظواهر لغوية عالية المستوى ومعقدة مثل بناء الجملة والدلالات والمعرفة العالمية والف