ترغب بنشر مسار تعليمي؟ اضغط هنا

الالتزام: ارتكاب جيل الرسائل باستخدام نموذج لغة البرمجة المدربة مسبقا

CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model

300   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

رسالة الالتزام هي وثيقة تلخص تغييرات شفرة المصدر باللغة الطبيعية. تظهر رسالة الالتزام الجيدة بوضوح تغييرات شفرة المصدر، لذلك يعزز هذا التعاون بين المطورين. لذلك، فإن عملنا هو تطوير نموذج يكتب تلقائيا رسالة الالتزام. تحقيقا لهذه الغاية، نقوم بإصدار مجموعات بيانات 345K تتكون من تعديل التعليمات البرمجية وارتكاب الرسائل في ست لغات برمجة (بيثون، PHP، GO، Java، JavaScript، و Ruby). على غرار نموذج الترجمة الآلية العصبية (NMT)، باستخدام DataSet، نطعم تعديل التعليمات البرمجية إلى إدخال التشفير ورسالة الالتزام إلى إدخال فك الترميز وقياس نتيجة رسالة الالتزام التي تم إنشاؤها مع BLEU-4. أيضا، نقترح طرق التدريب التالية لتحسين نتيجة توليد رسالة الالتزام: (1) طريقة لمعالجة المدخلات لإطعام تعديل التعليمات البرمجية إلى إدخال التشفير. (2) طريقة تستخدم الوزن الأولي مناسب لمجال التعليمات البرمجية لتقليل الفجوة في التمثيل السياقي بين لغة البرمجة (PL) واللغة الطبيعية (NL).

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستفيد نماذج اللغة الكبيرة من التدريب بكمية كبيرة من النص غير المسبق، مما يمنحهم قدرات توليد بطلاقة ومتنوعة بشكل متزايد.ومع ذلك، فإن استخدام هذه النماذج لتوليد النص الذي يأخذ في الاعتبار السمات المستهدفة، مثل قطبية المعالم أو مواضيع محددة، لا يزال يم ثل تحديا.نقترح طريقة بسيطة ومرنة للسيطرة على جيل النص عن طريق محاذاة تمثيلات سمة Deventangled.على النقيض من الجهود الأخيرة التي يبذلها الجهود المبينة في تدريب تمييزي على توزيع مستوى الرمز المميز لسمة، نستخدم نفس البيانات لتعلم وظيفة المحاذاة لتوجيه نموذج اللغة غير المستخدمة مسبقا وغير الخاضعة للرقابة لإنشاء نصوص مع سمة الهدف دون تغييرالمعلمات نموذج اللغة الأصلية.نقوم بتقييم طريقتنا على توليد المعنويات والموضوع، وإظهار مكاسب أداء كبيرة على الطرق السابقة مع الاحتفاظ بالطلاقة والتنوع.
بالنسبة لأي موقع على شبكة الإنترنت للتجارة الإلكترونية، فهذا مشكلة غير خيالية تبني الإعلانات الدائمة التي تجذب المتسوقين.من الصعب اجتياز شريط الجودة الإبداعي للموقع، خاصة على نطاق واسع.وبالتالي نقترح حل برنامجي لتوليد عناوين إعلانات المنتج باستخدام م حتوى البيع بالتجزئة.نقترح حالة من التطبيقات الفنية لطرق التدرج في سياسة التعلم (RL) على المحولات (Vaswani et al.، 2017) نماذج لغة ملثم مقرها (ديفلين وآخرون، 2019).تقوم طريقةنا بإنشاء العنوان الإعلاني من خلال تكييف مشترك على منتجات متعددة يرغب البائع في الإعلان.نوضح أن أسلوبنا تتفوق على أساليب المحولات الحالية و LSTM + RL في مقاييس تداخل وتدقيق الجودة.نظهر أيضا أن عناويننا النموذجية التي تم إنشاؤها تفوقت عناوين حقوق الإنسان المقدمة من حيث القواعد الناقدية والجودة الإبداعية على النحو المحدد بالتدقيق.
بالنسبة للمبرمجين، تعلم استخدام واجهات برمجة التطبيقات (واجهات برمجة التطبيق) لمكتبة البرمجيات أمرا مهما للغاية. يمكن لأدوات توصية API أن تساعد المطورين في استخدام واجهات برمجة التطبيقات من خلال التوصية باستخدام واجهات برمجة التطبيقات التي سيتم استخد امها بعد ذلك بالنظر إلى واجهات برمجة التطبيقات التي تمت كتابتها. تقليديا، يتم تطبيق نماذج اللغة مثل غرام N على توصية API. ومع ذلك، نظرا لأن مكتبات البرمجيات تبقي المتغيرات والمكتبات الجديدة تبقي الناشئة، فإن واجهات برمجة التطبيقات الجديدة شائعة. يمكن رؤية واجهات برمجة التطبيقات الجديدة هذه مثل كلمات OOV (خارج المفردات) ولا يمكن التعامل معها جيدا من خلال نهج توصية API الحالية بسبب عدم وجود بيانات تدريبية. في هذه الورقة، نقترح ApireCX، أول نهج توصية API للمكتبات، والذي يستخدم BPE لتقسيم كل مكالمة API في كل تسلسل API وقم بتدريب نموذج اللغة GPT. ثم توصي باختصارها عن طريق ضبط النموذج المدرب مسبقا. يمكن ل APIRECX ترحيل معرفة المكتبات الموجودة إلى مكتبة جديدة، ويمكن أن توصي بايس واجهات برمجة التطبيقات التي تعتبرها OOV مسبقا. نقوم بتقييم ApireCX على ست مكتبات وتؤكد النتائج فعاليتها من خلال مقارنة مع نهج توصية API نموذجية.
تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب ن، والتي يمكن الحصول عليها من قبل النموذج أثناء التدريب. وبالتالي، فإن الهدف من هذه الدراسة هو فحص السلوك لنموذج الموديل في مهمة النمذجة اللغوية الملثمين ولتقديم التفسير اللغوي إلى الآثار والأخطاء غير المتوقعة التي ينتجها النموذج. لهذا الغرض، استخدمنا مجموعة بيانات جديدة باللغة الروسية بناء على النصوص التعليمية للمتعلمين باللغة الروسية والمصفحة بمساعدة الشقوق الوطنية للغة الروسية. من حيث مقاييس الجودة (نسبة الكلمات، ذات الصلة دلالة الكلمة المستهدفة)، يتم التعرف على بيرت متعددة اللغات كأفضل نموذج. بشكل عام، كل طراز لديه نقاط قوة متميزة فيما يتعلق بظاهرة لغوية معينة. هذه الملاحظات لها آثار ذات مغزى على البحث في اللغويات المطبقة والبيتاجوجية، والمساهمة في تطوير نظام الحوار، وجعل التمارين التلقائية، وتجول النص، ويمكن أن يحتمل أن يحسن جودة التقنيات اللغوية الحالية
حققت نماذج اللغة المدربة مسبقا (PLMS) مثل بيرت تقدما كبيرا في NLP. عادة ما تحتوي المقالات الإخبارية على معلومات نصية غنية، ويحتوي plms على إمكانات تعزيز نمذجة نص الأخبار لمختلف تطبيقات الأخبار الذكية مثل التوصية الإخبارية واسترجاعها. ومع ذلك، فإن معظ م plms الموجودة كبيرة الحجم مع مئات الملايين من المعلمات. تحتاج العديد من تطبيقات الأخبار عبر الإنترنت إلى خدمة ملايين المستخدمين الذين يعانون من تسامح الكمون المنخفض، مما يطرح تحديات كبيرة لإدماج PLMS في هذه السيناريوهات. يمكن تقنيات تقطير المعرفة ضغط plm كبيرة في واحدة أصغر بكثير، وفي الوقت نفسه يبقي الأداء الجيد. ومع ذلك، فإن نماذج اللغة الحالية مدربة مسبقا وتقليدها على Corpus العامة مثل Wikipedia، والتي تحتوي على ثغرات مع مجال الأخبار وقد تكون فرعية نفسية بالنسبة للذكاء الأخبار. في هذه الورقة، نقترح Newsbert، والتي يمكن أن تقطير plms لذكاء الأخبار الفعال والفعال. في نهجنا، نقوم بتصميم إطار التعلم المشترك والتقطير المشترك للمعلم لتعليم كل من نماذج المعلم والطلاب، حيث يمكن أن يتعلم نموذج الطالب من تجربة التعلم لنموذج المعلم. بالإضافة إلى ذلك، نقترح طريقة تقطير الزخم من خلال دمج تدرجات نموذج المعلم في تحديث نموذج الطلاب لتحسين المعرفة التي تعلمتها نموذج المعلم. تجارب شاملة على رقمين في العالم الحقيقي مع ثلاث مهام تظهر أن Newsbert يمكن أن تمكن العديد من تطبيقات الأخبار الذكية مع نماذج أصغر بكثير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا