رسالة الالتزام هي وثيقة تلخص تغييرات شفرة المصدر باللغة الطبيعية. تظهر رسالة الالتزام الجيدة بوضوح تغييرات شفرة المصدر، لذلك يعزز هذا التعاون بين المطورين. لذلك، فإن عملنا هو تطوير نموذج يكتب تلقائيا رسالة الالتزام. تحقيقا لهذه الغاية، نقوم بإصدار مجموعات بيانات 345K تتكون من تعديل التعليمات البرمجية وارتكاب الرسائل في ست لغات برمجة (بيثون، PHP، GO، Java، JavaScript، و Ruby). على غرار نموذج الترجمة الآلية العصبية (NMT)، باستخدام DataSet، نطعم تعديل التعليمات البرمجية إلى إدخال التشفير ورسالة الالتزام إلى إدخال فك الترميز وقياس نتيجة رسالة الالتزام التي تم إنشاؤها مع BLEU-4. أيضا، نقترح طرق التدريب التالية لتحسين نتيجة توليد رسالة الالتزام: (1) طريقة لمعالجة المدخلات لإطعام تعديل التعليمات البرمجية إلى إدخال التشفير. (2) طريقة تستخدم الوزن الأولي مناسب لمجال التعليمات البرمجية لتقليل الفجوة في التمثيل السياقي بين لغة البرمجة (PL) واللغة الطبيعية (NL).
Commit message is a document that summarizes source code changes in natural language. A good commit message clearly shows the source code changes, so this enhances collaboration between developers. Therefore, our work is to develop a model that automatically writes the commit message. To this end, we release 345K datasets consisting of code modification and commit messages in six programming languages (Python, PHP, Go, Java, JavaScript, and Ruby). Similar to the neural machine translation (NMT) model, using our dataset, we feed the code modification to the encoder input and the commit message to the decoder input and measure the result of the generated commit message with BLEU-4. Also, we propose the following two training methods to improve the result of generating the commit message: (1) A method of preprocessing the input to feed the code modification to the encoder input. (2) A method that uses an initial weight suitable for the code domain to reduce the gap in contextual representation between programming language (PL) and natural language (NL).
References used
https://aclanthology.org/
Large language models benefit from training with a large amount of unlabeled text, which gives them increasingly fluent and diverse generation capabilities. However, using these models for text generation that takes into account target attributes, su
For any E-commerce website it is a nontrivial problem to build enduring advertisements that attract shoppers. It is hard to pass the creative quality bar of the website, especially at a large scale. We thus propose a programmatic solution to generate
For programmers, learning the usage of APIs (Application Programming Interfaces) of a software library is important yet difficult. API recommendation tools can help developers use APIs by recommending which APIs to be used next given the APIs that ha
Modern transformer-based language models are revolutionizing NLP. However, existing studies into language modelling with BERT have been mostly limited to English-language material and do not pay enough attention to the implicit knowledge of language,
Pre-trained language models (PLMs) like BERT have made great progress in NLP. News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelligent news applications like news recom