نقترح codeqa، وهو سؤالا حرة يرد على مجموعة البيانات لغرض فهم التعليمات البرمجية المصدر: إعطاء مقتطف رمز وسؤال، مطلوب إجابة نصية أن يتم إنشاؤها.يحتوي Codeqa على مجموعة بيانات Java مع 119،778 أزواج من الإجابات السؤال ومجموعة بيانات بيثون مع 70،085 زوجا للإجابة على الإجابات.للحصول على أسئلة وأجوبة طبيعية وفية، نقوم بتنفيذ القواعد النحوية والتحليل الدلالي لتحويل تعليقات التعليمات البرمجية إلى أزواج الإجابة على الأسئلة.نقدم عملية البناء وإجراء التحليل المنهجي لمجموعة البيانات الخاصة بنا.يتم عرض نتائج التجربة التي حققتها العديد من خطوط الأساس العصبية على DataSet لدينا ومناقشتها.في حين أن البحث عن الإجابة على السؤال والفهم قراءة الآلة يتطور بسرعة، إلا أن القليل من العمل السابق قد لفت الانتباه إلى إجابة سؤال التعليمات البرمجية.يمكن أن تكون هذه البيانات الجديدة هذه بمثابة معيار بحث مفيد لفهم شفرة المصدر.
We propose CodeQA, a free-form question answering dataset for the purpose of source code comprehension: given a code snippet and a question, a textual answer is required to be generated. CodeQA contains a Java dataset with 119,778 question-answer pairs and a Python dataset with 70,085 question-answer pairs. To obtain natural and faithful questions and answers, we implement syntactic rules and semantic analysis to transform code comments into question-answer pairs. We present the construction process and conduct systematic analysis of our dataset. Experiment results achieved by several neural baselines on our dataset are shown and discussed. While research on question-answering and machine reading comprehension develops rapidly, few prior work has drawn attention to code question answering. This new dataset can serve as a useful research benchmark for source code comprehension.
المراجع المستخدمة
https://aclanthology.org/
تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع
هناك مصلحة ناشئة في تطبيق نماذج معالجة اللغة الطبيعية لمهام معالجة التعليمات البرمجية المصدر.أحد المشاكل الرئيسية في تطبيق التعلم العميق لهندسة البرمجيات هو أن الكود المصدري غالبا ما يحتوي على الكثير من المعرفات النادرة، مما يؤدي إلى مفردات ضخمة.نقتر
في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي ع
البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا
أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النما