يسمح دفتر Jupyter لعلماء البيانات كتابة رمز تعلم الآلة مع وثائقها في الخلايا.في هذه الورقة، نقترح مهمة جديدة من توليد وثائق التعليمات البرمجية (CDG) لأجهزة الكمبيوتر المحمولة الحسابية.على النقيض من مهام CDG السابقة التي تركز على توليد وثائق لفظات شفرة واحدة، في دفتر ملاحظات حسابي، غالبا ما يتوافق وثائق في خلية في خلية تخطيطية مع خلايا التعليمات البرمجية المتعددة، ولديها خلايا التعليمات البرمجية هذه هيكل متأصل.اقترحنا نموذجا جديدا (Haconvgnn) الذي يستخدم آلية اهتمام هرمي للنظر في خلايا التعليمات البرمجية ذات الصلة ومعلومات الرموز التعليمية ذات الصلة عند إنشاء الوثائق.تم اختباره على كوربوس جديد تم إنشاؤه من أجهزة كمبيوتر دفاتر Kaggle موثقة جيدا، نظرا لأن نموذجنا يفوق النماذج الأساسية الأخرى.
Jupyter notebook allows data scientists to write machine learning code together with its documentation in cells. In this paper, we propose a new task of code documentation generation (CDG) for computational notebooks. In contrast to the previous CDG tasks which focus on generating documentation for single code snippets, in a computational notebook, one documentation in a markdown cell often corresponds to multiple code cells, and these code cells have an inherent structure. We proposed a new model (HAConvGNN) that uses a hierarchical attention mechanism to consider the relevant code cells and the relevant code tokens information when generating the documentation. Tested on a new corpus constructed from well-documented Kaggle notebooks, we show that our model outperforms other baseline models.
المراجع المستخدمة
https://aclanthology.org/
تهدف المنطق الرياضي إلى استنتاج الحلول الراضية بناء على أسئلة الرياضيات المعينة. أثبتت أبحاث معالجة اللغة الطبيعية السابقة فعالية التسلسل إلى التسلسل (SEQ2SEQ) أو المتغيرات ذات الصلة على حل الرياضيات. ومع ذلك، تمكن عدد قليل من الأعمال من استكشاف المع
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا
تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير.
يحقق إطار التشفير - فك التشفير النتائج الحديثة النتائج في مهام توليد المفاتيح (KG) من خلال التنبؤ بكل من الرافعات القصيرة الحالية التي تظهر في المستند المصدر والمشابط الغياب التي لا تفعل ذلك. ومع ذلك، فإن الاعتماد فقط على المستند المصدر يمكن أن يؤدي
يعمل العمل الحديث على تصنيف المعنويات على مستوى جانب الجساب شبكات اتصالا بيانيا (GCN) على أشجار التبعية لتعلم التفاعلات بين شروط الارتفاع وكلمات الرأي. في بعض الحالات، لا يمكن الوصول إلى كلمات الرأي المقابلة لمصطلح الجانب داخل القفزتين على أشجار التب