تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطريقة اخفاء هذه المتخلل تهمل طرازات التبعيات داخل الإتصال والمعلومات المشتركة بين المعلومات اللغوية المحبوبة الخشنة. كديل، نقترح Ernie-Gram، وهي طريقة إخفاء N-Gram بشكل صريح لتعزيز دمج المعلومات المحبوسة الخشنة في ما قبل التدريب. في Ernie-Gram، N-Grams ملثمين وتوقعت مباشرة باستخدام هويات N-Gram واضحة بدلا من تسلسلات متجاورة من الرموز N. علاوة على ذلك، توظف Ernie-Gram نموذج مولد للعينة من هويات N-Gram المعقولة كقنعة اختيارية N-Gram وتوقعها في كل من الأخلاق الخشنة والحبوب الدقيقة لتمكين تنبؤات N-Gram الشاملة ونمذجة العلاقة. نحن نسترجع تدريبات Ernie-Gram على النصوص باللغة الإنجليزية والصينية ونغمة الجميلة في 19 مهام المصب. تظهر النتائج التجريبية أن Ernie-Gram يتفوق على نماذج مسبقة التدريب السابقة مثل XLNet و Roberta بهامش كبير، وتحقق نتائج قابلة للمقارنة مع الطرق الحديثة. تم إصدار رموز المصدر والنماذج المدربة مسبقا في https://github.com/paddlepaddle/ernie.
Coarse-grained linguistic information, such as named entities or phrases, facilitates adequately representation learning in pre-training. Previous works mainly focus on extending the objective of BERT's Masked Language Modeling (MLM) from masking individual tokens to contiguous sequences of n tokens. We argue that such contiguously masking method neglects to model the intra-dependencies and inter-relation of coarse-grained linguistic information. As an alternative, we propose ERNIE-Gram, an explicitly n-gram masking method to enhance the integration of coarse-grained information into pre-training. In ERNIE-Gram, n-grams are masked and predicted directly using explicit n-gram identities rather than contiguous sequences of n tokens. Furthermore, ERNIE-Gram employs a generator model to sample plausible n-gram identities as optional n-gram masks and predict them in both coarse-grained and fine-grained manners to enable comprehensive n-gram prediction and relation modeling. We pre-train ERNIE-Gram on English and Chinese text corpora and fine-tune on 19 downstream tasks. Experimental results show that ERNIE-Gram outperforms previous pre-training models like XLNet and RoBERTa by a large margin, and achieves comparable results with state-of-the-art methods. The source codes and pre-trained models have been released at https://github.com/PaddlePaddle/ERNIE.
References used
https://aclanthology.org/
We describe the systems developed by the National Research Council Canada for the Uralic language identification shared task at the 2021 VarDial evaluation campaign. We evaluated two different approaches to this task: a probabilistic classifier explo
We present a simple yet effective Targeted Adversarial Training (TAT) algorithm to improve adversarial training for natural language understanding. The key idea is to introspect current mistakes and prioritize adversarial training steps to where the
Advances in English language representation enabled a more sample-efficient pre-training task by Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA). Which, instead of training a model to recover masked tokens, it
A possible explanation for the impressive performance of masked language model (MLM) pre-training is that such models have learned to represent the syntactic structures prevalent in classical NLP pipelines. In this paper, we propose a different expla
Code summarization and generation empower conversion between programming language (PL) and natural language (NL), while code translation avails the migration of legacy code from one PL to another. This paper introduces PLBART, a sequence-to-sequence