cotext: التعلم متعدد المهام مع محول نص التعليمات البرمجية


الملخص بالعربية

نقدم COTEXT، وهو نموذج ترميز ترميز مدرب مسبقا مدرب مسبقا، يتعلم السياق التمثيلي بين اللغة الطبيعية (NL) ولغة البرمجة (PL). باستخدام الإشراف الذاتي، تم تدريب COTEX مسبقا على لغة البرمجة الكبيرة لشركة Corpora لتعلم فهم عام للغة والرمز. يدعم COTEXT مهام NL-PL المصب مثل الرمز الملخص / الوثائق، وتوليد الرموز، والكشف عن العيوب، وتصحيح التعليمات البرمجية. نحن ندرب مشعك على مجموعات مختلفة من Corpus المتوفرة المتوفرة بما في ذلك البيانات BIMODAL 'و Unimodal'. هنا، بيانات BIMODAL هي مزيج من النصوص النصية والنصوص المقابلة، في حين أن البيانات غير المستخدمة هي مجرد مقتطفات رمز. نقيم أولا COTEXT مع التعلم متعدد المهام: نقوم بإجراء تلخيص الكود على 6 لغات برمجة مختلفة وصقل التعليمات البرمجية على كل من الحجم الصغير والمتوسط ​​المميز في DataSet Codexglue. كلنا إجراء تجارب مكثفة للتحقيق في COTEXT على مهام أخرى ضمن DataSet Codexglue، بما في ذلك توليد التعليمات البرمجية والكشف عن العيوب. نحن نتحمل باستمرار نتائج SOTA في هذه المهام، مما يدل على تنوع نماذجنا.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث