ترغب بنشر مسار تعليمي؟ اضغط هنا

يلقي: تعزيز رمز التعزيز مع تقسيم التسلسل الهرمي وإعادة بناء أشجار بناء الجملة مجردة

CAST: Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees

192   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف تلخيص الكود إلى توليد أوصاف لغة طبيعية موجزة من التعليمات البرمجية المصدرية، والتي يمكن أن تساعد في تحسين فهم البرنامج والصيانة. تظهر الدراسات الحديثة أن المعلومات الأساسية والهيكلية المستخرجة من أشجار بناء الجملة التجريدية (ASTS) مواتية لتوليد الموجز. ومع ذلك، فإن النهج الحالية تفشل في التقاط المعلومات الغنية بالكامل في ASTS بسبب الحجم / العمق الكبير من ASTS. في هذه الورقة، نقترح نموذج رواية يلقي أن ينشق التسلسل هرمي وإعادة بناء ASTS. أولا، نحن تقسيم هرميا كبيرا إلى مجموعة كبيرة في مجموعة من السكتة الدماغيين واستخدام شبكة عصبية متكررة لتشفير الفرعية. ثم، نكمل تجميع شركات السكتة الدماغية من خلال إعادة بناء النقص الانقسام للحصول على تمثيل AST الكامل. أخيرا، يتم استخدام تمثيل AST، جنبا إلى جنب مع تضمين شفرة المصدر الذي حصل عليه تشفير رمز الكود الفانيليا، لتلخيص التعليمات البرمجية. أظهرت تجارب واسعة، بما في ذلك دراسة الاجتثاث والتقييم البشري، على المعايير قوة المدلى بها. لتسهيل الاستيلاء، تتوفر الكود والبيانات لدينا في https://github.com/deepsoftwareanalytics/ast.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قاد رين على الاستفادة من السياق الكامل بأكمله من الملفات والحزم الكبيرة لأي مهمة معينة. في حين أن هناك العديد من الجهود المبذولة لتوسيع نافذة السياق، فإننا نقدم نهجا مستقلا بالهندسة المعمارية للاستفادة من التسلسلات الهيدروجسية النحوية من التعليمات البرمجية المصدرية لإدماج سياق كامل مستوى الملف في نافذة ذات طول ثابت. باستخدام أشجار بناء جملة الخرسانة من كل ملف مصدر نستخرج التسلسلات الهرمية النحوية ودمجها في نافذة السياق عن طريق إزالة بشكل انتقائي من عرض نطاقات أكثر تحديدا وأقل أهمية لمهمة معينة. نقوم بتقييم هذا النهج على مهام توليد التعليمات البرمجية والترجمة المشتركة للغة الطبيعية ومزدئة المصدر في لغة البرمجة الثابتة، وتحقيق حالة جديدة من بين الفن في إكمال التعليمات البرمجية وتلخيص Python في معيار Codexglue. نقدم أيضا معايير CodexGlue جديدة للمهام الدوافع المتعلقة بتجربة المستخدمين: إكمال التعليمات البرمجية مع الحرفيات الطبيعية، طريقة إتمام الأسلوب / تلخيص / رمز رمز مكيف في سياق مستوى الملفات.
مع الوفاء المتزايد من نصوص الاجتماعات، اجتذبت ملخص الاجتماع المزيد والمزيد من الاهتمام من الباحثين. حققت طريقة التدريب المسبق غير المعروضة على أساس هيكل المحولات المبلغة مع ضبط المهام المصب الناجمة نجاحا كبيرا في مجال تلخيص النص. ومع ذلك، فإن الهيكل الدلالي وأسلوب حقول الاجتماع يختلف تماما عن مقالات. في هذا العمل، نقترح شبكة فك ترميز ترميز ترميز هيرسلجية ذات مهام مسبقة مهام متعددة. على وجه التحديد، نحن نخفي الجمل الرئيسية في تشفير مستوى الكلمات وتوليدها في وحدة فك الترميز. علاوة على ذلك، نقع بشكل عشوائي بعض محاذاة الدور في نص الإدخال وإجبار النموذج على استعادة علامات الدور الأصلية لإكمال المحاذاة. بالإضافة إلى ذلك، نقدم آلية تجزئة موضوعا لمواصلة تحسين جودة الملخصات التي تم إنشاؤها. تظهر النتائج التجريبية أن طرازنا متفوق على الأساليب السابقة في مجموعات بيانات ملخص الاجتماع AMI و ICSI.
حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل يات إعادة الإعمار على مستويين لتخفيف هذه المشكلة.يعيد إعادة تعيين مستوى التسلسل على مستوى التسلسل الوثيقة بأكملها من الطبقة المخفية من الملخص المستهدف، في حين أن كلمة تضمين المستوى يعيد إعادة إنشاء واحد من متوسط كلمة Word للمصدر في الجانب المستهدف لضمان إدراج أكبر قدر ممكن من المعلومات الهامة في الملخصبقدر الإمكان.بناء على افتراض تقيس تدابير تردد الوثيقة العكسية (IDF) مدى أهمية كلمة كلمة، فإننا نستفيد إلى زيادة أوزان جيش الدفاع الإسرائيلي في إعادة بناء مستوى التضمين لدينا.تؤدي الأطر المقترحة إلى تحسينات واعدة لمقاييس الحمر والتصنيف البشري على مجموعات بيانات تلخيص CNN / Daily البريدية وحكم الأخبار.
تعتمد أساليب نقل نمط النص الحالي (TST) على أسلوب الطبقات لتفكيك سمات محتوى النص والأناقة لنقل نمط النص. في حين أن المصنف الأسلوب يلعب دورا حاسما في طرق TST الحالية، لا يوجد تحقيق معروف على تأثيره على أساليب TST. في هذه الورقة، نقوم بإجراء دراسة تجريب ية عن قيود أقراص الطبقات المستخدمة في طرق TST الحالية. لقد أظهرنا أن مصنفات النمط الموجودة لا يمكنهم تعلم بناء جملة الجملة بشكل فعال وفي نهاية المطاف أداء نماذج TST الحالية. لمعالجة هذه المشكلة، نقترح نموذجا جديدا للجيل القابل للتحكم في بناء الجملة، والذي يتضمن مصنف بنمط بناء بناء الجملة يضمن التمثيلات الكامنة المستفادة التي تم التعهد بها بفعالية برياحة هيكل الجملة ل TST. من خلال تجارب واسعة على مهام نقل نمط نصية شعبية، نوضح أن طريقةنا المقترحة تتفوق بشكل كبير على اثني عشر طريقا حديثة. أظهرت دراسات الحالة لدينا أيضا قدرة SACG على توليد جمل ذات أسلوب يستهدف بطلاقة حافظت على المحتوى الأصلي.
تم تجاهل المعلومات النحوية والدلية الخارجية إلى حد كبير من قبل نماذج حل النواة العصبية الحالية.في هذه الورقة، نقدم نموذجا مقرا له من الرسوم البيانية غير متجانسة لإدماج الهياكل النحوية والدلالية للجمل.يحتوي الرسم البياني المقترح على رسم بياني فرعي سنو ي حيث يتم توصيل الرموز الرائعة بناء على شجرة التبعية، ورسم إلكتروني فرعي دلالي يحتوي على حجج ويستند كمستلزمات دورا دالايا كحواف.من خلال تطبيق شبكة انتباه الرسوم البيانية، يمكننا الحصول على تمثيل كلمة معدنية من الناحية النحوية وغير المعزز، والتي يمكن دمجها باستخدام طبقة تكامل اليقظة وآلية Gating.تجارب في OnTonotes 5.0 معيار المعيار إظهار فعالية نموذجنا المقترح.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا