عثرت نمذجة اللغة الإحصائية والترجمة مع المحولات العديد من التطبيقات الناجحة في فهم البرنامج ومهام الجيل، وتحديد معايير عالية للأدوات في بيئات تطوير البرمجيات الحديثة. ومع ذلك، فإن نافذة السياق المحدودة لهذه النماذج العصبية تعني أنهم لن يكونوا غير قادرين على الاستفادة من السياق الكامل بأكمله من الملفات والحزم الكبيرة لأي مهمة معينة. في حين أن هناك العديد من الجهود المبذولة لتوسيع نافذة السياق، فإننا نقدم نهجا مستقلا بالهندسة المعمارية للاستفادة من التسلسلات الهيدروجسية النحوية من التعليمات البرمجية المصدرية لإدماج سياق كامل مستوى الملف في نافذة ذات طول ثابت. باستخدام أشجار بناء جملة الخرسانة من كل ملف مصدر نستخرج التسلسلات الهرمية النحوية ودمجها في نافذة السياق عن طريق إزالة بشكل انتقائي من عرض نطاقات أكثر تحديدا وأقل أهمية لمهمة معينة. نقوم بتقييم هذا النهج على مهام توليد التعليمات البرمجية والترجمة المشتركة للغة الطبيعية ومزدئة المصدر في لغة البرمجة الثابتة، وتحقيق حالة جديدة من بين الفن في إكمال التعليمات البرمجية وتلخيص Python في معيار Codexglue. نقدم أيضا معايير CodexGlue جديدة للمهام الدوافع المتعلقة بتجربة المستخدمين: إكمال التعليمات البرمجية مع الحرفيات الطبيعية، طريقة إتمام الأسلوب / تلخيص / رمز رمز مكيف في سياق مستوى الملفات.
Statistical language modeling and translation with transformers have found many successful applications in program understanding and generation tasks, setting high benchmarks for tools in modern software development environments. The finite context window of these neural models means, however, that they will be unable to leverage the entire relevant context of large files and packages for any given task. While there are many efforts to extend the context window, we introduce an architecture-independent approach for leveraging the syntactic hierarchies of source code for incorporating entire file-level context into a fixed-length window. Using concrete syntax trees of each source file we extract syntactic hierarchies and integrate them into context window by selectively removing from view more specific, less relevant scopes for a given task. We evaluate this approach on code generation tasks and joint translation of natural language and source code in Python programming language, achieving a new state-of-the-art in code completion and summarization for Python in the CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for user-experience-motivated tasks: code completion with normalized literals, method body completion/code summarization conditioned on file-level context.
References used
https://aclanthology.org/
Code summarization aims to generate concise natural language descriptions of source code, which can help improve program comprehension and maintenance. Recent studies show that syntactic and structural information extracted from abstract syntax trees
The Research suggests a novel model aims to reduce the time of search for image
files by proposing a new indexing mechanism to avoid the plague algorithm used with
indexing so that the access time to these files becomes as less as possible.
The fi
Language models are generally trained on short, truncated input sequences, which limits their ability to use discourse-level information present in long-range context to improve their predictions. Recent efforts to improve the efficiency of self-atte
We present CoTexT, a pre-trained, transformer-based encoder-decoder model that learns the representative context between natural language (NL) and programming language (PL). Using self-supervision, CoTexT is pre-trained on large programming language
Software developers write a lot of source code and documentation during software development. Intrinsically, developers often recall parts of source code or code summaries that they had written in the past while implementing software or documenting t