تهدف تلخيص الكود إلى توليد أوصاف لغة طبيعية موجزة من التعليمات البرمجية المصدرية، والتي يمكن أن تساعد في تحسين فهم البرنامج والصيانة. تظهر الدراسات الحديثة أن المعلومات الأساسية والهيكلية المستخرجة من أشجار بناء الجملة التجريدية (ASTS) مواتية لتوليد الموجز. ومع ذلك، فإن النهج الحالية تفشل في التقاط المعلومات الغنية بالكامل في ASTS بسبب الحجم / العمق الكبير من ASTS. في هذه الورقة، نقترح نموذج رواية يلقي أن ينشق التسلسل هرمي وإعادة بناء ASTS. أولا، نحن تقسيم هرميا كبيرا إلى مجموعة كبيرة في مجموعة من السكتة الدماغيين واستخدام شبكة عصبية متكررة لتشفير الفرعية. ثم، نكمل تجميع شركات السكتة الدماغية من خلال إعادة بناء النقص الانقسام للحصول على تمثيل AST الكامل. أخيرا، يتم استخدام تمثيل AST، جنبا إلى جنب مع تضمين شفرة المصدر الذي حصل عليه تشفير رمز الكود الفانيليا، لتلخيص التعليمات البرمجية. أظهرت تجارب واسعة، بما في ذلك دراسة الاجتثاث والتقييم البشري، على المعايير قوة المدلى بها. لتسهيل الاستيلاء، تتوفر الكود والبيانات لدينا في https://github.com/deepsoftwareanalytics/ast.
Code summarization aims to generate concise natural language descriptions of source code, which can help improve program comprehension and maintenance. Recent studies show that syntactic and structural information extracted from abstract syntax trees (ASTs) is conducive to summary generation. However, existing approaches fail to fully capture the rich information in ASTs because of the large size/depth of ASTs. In this paper, we propose a novel model CAST that hierarchically splits and reconstructs ASTs. First, we hierarchically split a large AST into a set of subtrees and utilize a recursive neural network to encode the subtrees. Then, we aggregate the embeddings of subtrees by reconstructing the split ASTs to get the representation of the complete AST. Finally, AST representation, together with source code embedding obtained by a vanilla code token encoder, is used for code summarization. Extensive experiments, including the ablation study and the human evaluation, on benchmarks have demonstrated the power of CAST. To facilitate reproducibility, our code and data are available at https://github.com/DeepSoftwareAnalytics/CAST.
المراجع المستخدمة
https://aclanthology.org/
عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد
مع الوفاء المتزايد من نصوص الاجتماعات، اجتذبت ملخص الاجتماع المزيد والمزيد من الاهتمام من الباحثين. حققت طريقة التدريب المسبق غير المعروضة على أساس هيكل المحولات المبلغة مع ضبط المهام المصب الناجمة نجاحا كبيرا في مجال تلخيص النص. ومع ذلك، فإن الهيكل
حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل
تعتمد أساليب نقل نمط النص الحالي (TST) على أسلوب الطبقات لتفكيك سمات محتوى النص والأناقة لنقل نمط النص. في حين أن المصنف الأسلوب يلعب دورا حاسما في طرق TST الحالية، لا يوجد تحقيق معروف على تأثيره على أساليب TST. في هذه الورقة، نقوم بإجراء دراسة تجريب
تم تجاهل المعلومات النحوية والدلية الخارجية إلى حد كبير من قبل نماذج حل النواة العصبية الحالية.في هذه الورقة، نقدم نموذجا مقرا له من الرسوم البيانية غير متجانسة لإدماج الهياكل النحوية والدلالية للجمل.يحتوي الرسم البياني المقترح على رسم بياني فرعي سنو