تلخيص شفرة المصدر الآلي هي موضوع أبحاث هندسة برامج شهيرة حيث يتم استخدام نماذج الترجمة الآلية لترجمة مقتطفات التعليمات البرمجية إلى أوصاف اللغة الطبيعية ذات الصلة. تتم معظم تقييمات هذه النماذج باستخدام مقاييس تلقائية قائمة على المرجع. ومع ذلك، بالنظر إلى الفجوة الدلالية الكبيرة نسبيا بين لغات البرمجة واللغة الطبيعية، فإننا نقول أن هذا الخط من الأبحاث سيستفيد من التحقيق النوعي في أوضاع الخطأ المختلفة لنماذج الحالة الحالية. لذلك، في هذا العمل، نقوم بإجراء مقارنة كمية ونوعية من ثلاثة نماذج تلخيص شفرة المصدر المقترحة مؤخرا. في تقييمنا الكمي، قارن النماذج المستندة إلى مقاييس الترجمة من BLEU-4 و Noteor و Rouge-L، وفي تقييمنا النوعي، نقوم بإجراء ترميز مفتوح يدوي لأخطاء الأكثر شيوعا التي ارتكبتها النماذج مقارنة مع تسميات الحقيقة الأرضية. يكشف تحقيقنا عن رؤى جديدة في العلاقة بين الأداء المستند إلى الأداء المتري وأخطاء التنبؤ بالنماذج التي تستند إلى تصنيف خطأ يمكن استخدامها لدفع جهود البحث في المستقبل.
Automated source code summarization is a popular software engineering research topic wherein machine translation models are employed to translate'' code snippets into relevant natural language descriptions. Most evaluations of such models are conducted using automatic reference-based metrics. However, given the relatively large semantic gap between programming languages and natural language, we argue that this line of research would benefit from a qualitative investigation into the various error modes of current state-of-the-art models. Therefore, in this work, we perform both a quantitative and qualitative comparison of three recently proposed source code summarization models. In our quantitative evaluation, we compare the models based on the smoothed BLEU-4, METEOR, and ROUGE-L machine translation metrics, and in our qualitative evaluation, we perform a manual open-coding of the most common errors committed by the models when compared to ground truth captions. Our investigation reveals new insights into the relationship between metric-based performance and model prediction errors grounded in an error taxonomy that can be used to drive future research efforts.
References used
https://aclanthology.org/
Electronic arbitration and its electronic decisions are
considered to be the most modern means of resolving disputes
arising from electronic business transactions, and since the
electronic arbitration decision issued by the electronic arbitral
tr
Frame-based state representation is widely used in modern task-oriented dialog systems to model user intentions and slot values. However, a fixed design of domain ontology makes it difficult to extend to new services and APIs. Recent work proposed to
Social media companies as well as censorship authorities make extensive use of artificial intelligence (AI) tools to monitor postings of hate speech, celebrations of violence or profanity. Since AI software requires massive volumes of data to train c
This work describes analysis of nature and causes of MT errors observed by different evaluators under guidance of different quality criteria: adequacy and comprehension and and a not specified generic mixture of adequacy and fluency. We report result
This study aims to determine the direct role
of some factors that contribute to improve the prognosis of the
Cervical and Furcation Perforations throughout application of
bioactive materials using non surgical methods.