نقترح codeqa، وهو سؤالا حرة يرد على مجموعة البيانات لغرض فهم التعليمات البرمجية المصدر: إعطاء مقتطف رمز وسؤال، مطلوب إجابة نصية أن يتم إنشاؤها.يحتوي Codeqa على مجموعة بيانات Java مع 119،778 أزواج من الإجابات السؤال ومجموعة بيانات بيثون مع 70،085 زوجا للإجابة على الإجابات.للحصول على أسئلة وأجوبة طبيعية وفية، نقوم بتنفيذ القواعد النحوية والتحليل الدلالي لتحويل تعليقات التعليمات البرمجية إلى أزواج الإجابة على الأسئلة.نقدم عملية البناء وإجراء التحليل المنهجي لمجموعة البيانات الخاصة بنا.يتم عرض نتائج التجربة التي حققتها العديد من خطوط الأساس العصبية على DataSet لدينا ومناقشتها.في حين أن البحث عن الإجابة على السؤال والفهم قراءة الآلة يتطور بسرعة، إلا أن القليل من العمل السابق قد لفت الانتباه إلى إجابة سؤال التعليمات البرمجية.يمكن أن تكون هذه البيانات الجديدة هذه بمثابة معيار بحث مفيد لفهم شفرة المصدر.
We propose CodeQA, a free-form question answering dataset for the purpose of source code comprehension: given a code snippet and a question, a textual answer is required to be generated. CodeQA contains a Java dataset with 119,778 question-answer pairs and a Python dataset with 70,085 question-answer pairs. To obtain natural and faithful questions and answers, we implement syntactic rules and semantic analysis to transform code comments into question-answer pairs. We present the construction process and conduct systematic analysis of our dataset. Experiment results achieved by several neural baselines on our dataset are shown and discussed. While research on question-answering and machine reading comprehension develops rapidly, few prior work has drawn attention to code question answering. This new dataset can serve as a useful research benchmark for source code comprehension.
References used
https://aclanthology.org/
Many datasets have been created for training reading comprehension models, and a natural question is whether we can combine them to build models that (1) perform better on all of the training datasets and (2) generalize and transfer better to new dat
There is an emerging interest in the application of natural language processing models to source code processing tasks. One of the major problems in applying deep learning to software engineering is that source code often contains a lot of rare ident
While diverse question answering (QA) datasets have been proposed and contributed significantly to the development of deep learning models for QA tasks, the existing datasets fall short in two aspects. First, we lack QA datasets covering complex ques
Web search is an essential way for humans to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of web-based structural reading comprehension. Given a web pa
Pre-trained language-vision models have shown remarkable performance on the visual question answering (VQA) task. However, most pre-trained models are trained by only considering monolingual learning, especially the resource-rich language like Englis