ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج بسيط للتعامل مع المعرفات خارج المفردات في التعلم العميق للحصول على شفرة المصدر

A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code

289   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

هناك مصلحة ناشئة في تطبيق نماذج معالجة اللغة الطبيعية لمهام معالجة التعليمات البرمجية المصدر.أحد المشاكل الرئيسية في تطبيق التعلم العميق لهندسة البرمجيات هو أن الكود المصدري غالبا ما يحتوي على الكثير من المعرفات النادرة، مما يؤدي إلى مفردات ضخمة.نقترح طريقة بسيطة، ولكنها فعالة، بناء على معرفة الهوية المعرفية، للتعامل مع المعرفات خارج المفردات (OOV).يمكن التعامل مع طريقتنا كخطوة مسبقة مسبقا، وبالتالي، تسمح بتنفيذ سهولة.نظرا لأن طريقة إخفاء مصطلحات OOV المقترحة تحسن بشكل كبير من أداء المحول في مهام معالجة التعليمات البرمجية: إكمال التعليمات البرمجية وإصلاح الأخطاء.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نعتبر مهمة ربط حسابات وسائل الاعلام الاجتماعية التي تنتمي إلى المؤلف نفسه في أزياء آلية على أساس المحتوى والبيانات التعريف لتدفقات المستندات المقابلة.نركز على تعلم التضمين الذي يقوم بخرائط عينات ذات حجم متغير من نشاط المستخدم - بدءا من مشاركات وا حدة بأكمله أشهر من النشاط - إلى مساحة متجهية، حيث عينات من نفس خريطة المؤلف إلى النقاط القريبة.لا يتطلب نهجنا بيانات مشروح من البشر لأغراض تدريبية، مما يتيح لنا الاستفادة من كميات كبيرة من محتوى وسائل التواصل الاجتماعي.تتفوق النموذج المقترح على العديد من خطوط الأساس التنافسية بموجب إطار تقييم رواية على غرار بعد معايير الاعتراف المنشأة في مجالات أخرى.إن طريقتنا تحقق دقة ربط عالية، حتى مع عينات صغيرة من الحسابات غير المرجة في وقت التدريب، شرط أساسي للتطبيقات العملية لإطار الارتباط المقترح.
نقترح codeqa، وهو سؤالا حرة يرد على مجموعة البيانات لغرض فهم التعليمات البرمجية المصدر: إعطاء مقتطف رمز وسؤال، مطلوب إجابة نصية أن يتم إنشاؤها.يحتوي Codeqa على مجموعة بيانات Java مع 119،778 أزواج من الإجابات السؤال ومجموعة بيانات بيثون مع 70،085 زوجا للإجابة على الإجابات.للحصول على أسئلة وأجوبة طبيعية وفية، نقوم بتنفيذ القواعد النحوية والتحليل الدلالي لتحويل تعليقات التعليمات البرمجية إلى أزواج الإجابة على الأسئلة.نقدم عملية البناء وإجراء التحليل المنهجي لمجموعة البيانات الخاصة بنا.يتم عرض نتائج التجربة التي حققتها العديد من خطوط الأساس العصبية على DataSet لدينا ومناقشتها.في حين أن البحث عن الإجابة على السؤال والفهم قراءة الآلة يتطور بسرعة، إلا أن القليل من العمل السابق قد لفت الانتباه إلى إجابة سؤال التعليمات البرمجية.يمكن أن تكون هذه البيانات الجديدة هذه بمثابة معيار بحث مفيد لفهم شفرة المصدر.
توليد الحوار المكيف يعاني من ندرة الردود المسمى.في هذا العمل، استغلالنا بيانات نصية غير حوار مرتبطة بالشرط، والتي هي أسهل بكثير لجمعها.نقترح نهج تعليمي متعدد المهام للاستفادة من كل من الحوار والبيانات النصية المسمى.تقوم المهام الثلاثة بتحسين نفس مهمة توليد الحوار المحول مدببت مسبقا على بيانات الحوار المسمى، ومهمة ترميز اللغة مشروطة ومهمة توليد اللغة مشروطة على البيانات النصية المسمى.تظهر النتائج التجريبية أن نهجنا يتفوق على النماذج الحديثة من خلال الاستفادة من النصوص المسمى، كما أنه يحصل أيضا على تحسين أكبر في الأداء مقارنة بالطرق السابقة لاستفادة البيانات النصية.
ألقى النمو الأسي للإنترنت والوسائط الاجتماعية في العقد الماضي الطريق إلى زيادة نشر المعلومات الخاطئة أو المضللة. منذ الانتخابات الرئاسية الأمريكية لعام 2016، أصبحت مصطلح أخبار وهمية "أصبحت شعبية متزايدة وقد تلقت هذه الظاهرة اهتماما أكبر. في السنوات ا لماضية، تم إنشاء العديد من وكالات فحص الحقائق، ولكن بسبب عدد كبير من الوظائف اليومية على وسائل التواصل الاجتماعي، والفحص اليدوي غير كاف. حاليا، هناك حاجة ملحة لأدوات الكشف عن الأخبار التلقائي، إما لمساعدة قوائم الداما اليدوية أو التشغيل كأدوات قائمة بذاتها. هناك العديد من المشاريع جارية حول هذا الموضوع، لكن معظمهم يركزون على اللغة الإنجليزية. تناقش ورقة البحث في البحث هذه توظيف أساليب التعلم العميق، وتطوير أداة، للكشف عن الأخبار الخاطئة باللغة البرتغالية. كخطوة أولى، سنقوم بمقارنة الهيغات الراسخة التي تم اختبارها بلغات أخرى وتحليل أدائها على بياناتنا البرتغالية. بناء على النتائج الأولية لهذه المصنفات، يجب أن نختار نموذجا للتعلم العميق أو الجمع بين العديد من نماذج التعلم العميق التي تعاني من وعد لتعزيز أداء نظام الكشف عن الأخبار المزيف.
اكتشاف النوايا الخارجية (OOD) أمر حاسم لنظام الحوار المنتشر الموجه نحو المهام.ستقوم أساليب الكشف عن OOD السابقة غير المعروضة فقط باستخراج الميزات التمييزية لمختلف النوايا داخل المجال، بينما يمكن للنظيرات الإشرافية التمييز مباشرة من النوايا OOD والمجا ل ولكنها تتطلب بيانات المسمى الواسعة.من أجل الجمع بين فوائد كلا النوعين، نقترح إطارا تعليميا مختلفا عن علم الذاتي لنموذج الميزات الدلالية التمييزية لكل من النوايا داخل المجال ومؤلبة OOD من البيانات غير المسبقة.علاوة على ذلك، نقدم وحدة عصبية عمومة خصصا لتحسين كفاءة وأغاني التعلم المقاوم للتناقض.تبين التجارب في مجموعات بيانات القياس العامة أن طريقتنا يمكن أن تفوق باستمرار على الأساس مع هامش مهم إحصائيا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا