يتم تدريب نماذج NLP الحالية في الغالب من خلال خط أنابيب ما قبل المرحلة من مرحلتين. لقد أظهر العمل المسبق أن إدراج مرحلة ما قبل التدريب الوسيط، باستخدام سياسات إخفاء الإرشادية لنمذجة لغة ملثم (MLM)، يمكن أن تحسن بشكل كبير الأداء النهائي. ومع ذلك، لا يزال غير واضح (1) في أي حالات مثل هذا التدريب المسبق الوسيط مفيد، (2) سواء كانت الأهداف المهمة المصنوعة يدويا هي مهمة معينة، و (3) ما إذا كانت سياسة إخفاء مصممة لمهمة واحدة تعزيم خارج تلك المهمة. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في تأثير سياسات اخفاء مختلفة في التدريب المسبق المتوسط مع تسع مهام مختارة عبر ثلاث فئات. من الأهمية، نقدم طرق لأتمتة اكتشاف سياسات إخفاء الأمثل عبر الإشراف المباشر أو التعلم التلوي. نستنتج أن نجاح التدريب المسبق الوسيط يعتمد على Corpus ما قبل القطارات المناسبة، واختيار تنسيق الإخراج (أي، يمثل الموافق أو الجملة الكاملة)، وفهم واضح للدور الذي يلعبه الامتيازات والرهون البحرية لمهمة المصب. بالإضافة إلى ذلك، نجد أن سياسات الاخفاء المتعلميتنا تتفوق على مزعجة إخفاء الكيانات المسماة على Triviaqa، والسياسات المستفادة من مهمة يمكن أن تنتقل بشكل إيجابي إلى مهام أخرى في بعض الحالات، مما يدعو إلى البحث في المستقبل في هذا الاتجاه.
Current NLP models are predominantly trained through a two-stage pre-train then fine-tune'' pipeline. Prior work has shown that inserting an intermediate pre-training stage, using heuristic masking policies for masked language modeling (MLM), can significantly improve final performance. However, it is still unclear (1) in what cases such intermediate pre-training is helpful, (2) whether hand-crafted heuristic objectives are optimal for a given task, and (3) whether a masking policy designed for one task is generalizable beyond that task. In this paper, we perform a large-scale empirical study to investigate the effect of various masking policies in intermediate pre-training with nine selected tasks across three categories. Crucially, we introduce methods to automate the discovery of optimal masking policies via direct supervision or meta-learning. We conclude that the success of intermediate pre-training is dependent on appropriate pre-train corpus, selection of output format (i.e., masked spans or full sentence), and clear understanding of the role that MLM plays for the downstream task. In addition, we find our learned masking policies outperform the heuristic of masking named entities on TriviaQA, and policies learned from one task can positively transfer to other tasks in certain cases, inviting future research in this direction.
المراجع المستخدمة
https://aclanthology.org/
نقدم مساهمة التاباس في المهمة المشتركة بشأن التحقق من البيان وإيجاد الأدلة مع الجداول (مهمة Semeval 2021 9، وانغ وآخرون (2021)). مهمة SEM Tab Factor Task A هي مهمة التصنيف بالاعتراف إذا تم إيصال بيان أو محايد أو دحض بمحتوى جدول معين. نعتمد نموذج تابا
تحقق هذه الورقة في فعالية التدريب المسبق لتصنيف قلة الطابع القليلة.في حين أن النماذج الحالية عادة ما تكون هناك مزيد من النماذج اللغوية السابقة لما قبل التدريب مثل Bert على كمية شاسعة من Corpus غير المسبق، فإننا نجد أنها فعالة للغاية وكفاءة ببساطة Bri
تمثل التمثيلات من النماذج الكبيرة المحددة مسبقا مثل Bert مجموعة من الميزات في متجهات غير متجانسة، مما يوفر دقة تنبؤية قوية عبر مجموعة من المهام المصب. في هذه الورقة، نستكشف ما إذا كان من الممكن تعلم تمثيلات محددة من خلال تحديد الشبكات الفرعية الحالية
أظهرت النماذج المتعددة اللغات المدربة مسبقا فعاليتها في العديد من مهام NLP متعددة اللغات وتمكن من نقل الصفر أو القليل من التحويلات من لغات الموارد العالية إلى الموارد المنخفضة. ومع ذلك، نظرا للاختلافات والتناقضات النموذجية الكبرى بين بعض اللغات، عادة
ما قبل التدريب (PT) والترجمة الخلفي (BT) هي طريقتان بسيطان وقويهما لاستخدام البيانات الأولية لتحسين الأداء النموذجي للترجمة الآلية العصبية (NMT).تأخذ هذه الورقة الخطوة الأولى للتحقيق في التكامل بين PT و BT.نقدم اثنين من المهام التحقيق الخاصة ب PT و B