ترغب بنشر مسار تعليمي؟ اضغط هنا

تلخيص اللغة الطبيعية الجديدة من رمز البرنامج عبر الاستفادة من العديد من تمثيلات الإدخال

Novel Natural Language Summarization of Program Code via Leveraging Multiple Input Representations

201   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن الافتقار إلى وصف رمز برنامج معين بمثابة عقبة كبيرة لتلك المطورين الجديدة في قاعدة التعليمات البرمجية لفهمها. أبلغت معالجة هذه المشكلة، العمل السابق في تلخيص التعليمات البرمجية، مهمة إنشاء وصف التعليمات البرمجية تلقائيا نظرا لأن نموذج التعلم الإضافي الذي تم تدريبه على إنتاج واجهة برمجة API (واجهة برمجة التطبيقات) أظهرت نتائج واعدة عند تطبيقها على ملخص كود نموذج. ومع ذلك، فإن رموز مختلفة لها ملخصات مختلفة يمكن أن يكون لها نفس مجموعة تسلسل API. إذا قمنا بتدريب نموذج لتوليد ملخصات بالنظر إلى تسلسل API، فلن يكون النموذج قادرا على التعلم بفعالية. ومع ذلك، نلاحظ أن تسلسل API لا يزال من الممكن أن يكون مفيدا ولم يتم استخدامه بنشاط. يقترح هذا العمل نهجا جديدا للمهاميات الجديدة التي تدرب في وقت واحد اثنين من المهام المماثلة: 1) تلخيص شفرة معينة (رمز إلى ملخص)، و 2) تلخيص تسلسل API معين (تسلسل API إلى ملخص). نقترح تشفير رواية على مستوى التعليمات البرمجية بناء على بيرت قادرة على التعبير عن دلالات التعليمات البرمجية، والحصول على تمثيلات لكل سطر التعليمات البرمجية. عملنا هو أول عمل تلخيص التعليمات البرمجية يستخدم نموذج اللغة المدربين تدريبا مسبقا باللغة والسياق الطبيعي في تشفيره. نقيم نهجنا باستخدام مجموعات بيانات شائعة (Java and Python) التي تم استخدامها على نطاق واسع في الدراسات السابقة. تظهر نتائجنا التجريبية أن نهجنا متعدد المهام لدينا يحسن على خطوط الأساس ويحقق الحالة الجديدة من بين الفن.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعلم تمثيل كامن جيد ضروري لنقل نمط النص، والذي يولد جملة جديدة عن طريق تغيير سمات جملة معينة مع الحفاظ على محتواها.تعتمد معظم الأعمال السابقة تمثيل تمثيل كامن Disentangled تعلم تحقيق نقل النمط.نقترح خوارزمية نقل نمط النص الجديد مع تمثيل كامن متشابكا، وإدخال مصنف نمط يمكن أن ينظم الهيكل الكامن ونقل النقل.علاوة على ذلك، تنطبق خوارزمية لنقل النمط على كل من سمة واحدة ونقل السمة المتعددة.تظهر النتائج التجريبية الواسعة أن طريقتنا تتفوق بشكل عام على النهج الحديثة.
تتمتع النموذج المستنى بالضمان بشعبية كبيرة في الأعمال الأخيرة من تجزئة التسلسل.ومع ذلك، فإن كل من هذه الطرق تعاني من عيوبها الخاصة، مثل التنبؤات غير الصالحة.في هذا العمل، نقدم نموذجا موحدا أساسيا، تحليل وحدة معجمية (LUA)، التي تتناول كل هذه الأمور.تج زئة تسلسل وحدة معجمية ينطوي على خطوتين.أولا، قمنا بتضمين كل فترة باستخدام التمثيلات من نموذج لغة المحدد.ثانيا، نحدد درجة لكل مرشح تجزئة وتطبيق البرمجة الديناميكية (DP) لاستخراج المرشح بحد أقصى درجة.لقد أجرينا تجارب مكثفة في 3 مهام، (على سبيل المثال، تصنيع النحوية)، عبر 7 مجموعات من مجموعات البيانات.أنشأت لوا عروضا جديدة من الفنادق الجديدة في 6 منها.لقد حققنا نتائج أفضل من خلال دمج ارتباطات التسمية.
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر ارة.تأخذ أساليب التعلم العميق الحديثة الألقاب والملخصات كمدخلات بسبب زيادة التعقيد الحسابي في معالجة التسلسلات الطويلة، في حين أن الأساليب التقليدية يمكن أن تعمل أيضا مع النصوص الكاملة.العناوين والملخصات كثيفة في الجماهيرية، ولكن غالبا ما تفوت جوانب مهمة من المقالات، في حين أن النصوص الكاملة من ناحية أخرى أكثر ثراء في الجماهيرية ولكن الكثير من الضويرة.لمعالجة هذه المفاضلة، نقترح استخدام نماذج تلخيص الاستخراجية على النصوص الكاملة للمستندات العلمية.تظهر دراستنا التجريبية على 3 مجموعات مقالات باستخدام 3 طرق استخراج المفاتيح 3 نتائج واعدة.
نماذج اللغة واسعة النطاق مثل GPT-3 هي متعلمين بقلة قليلة، مما يتيح لهم السيطرة عليها عبر مطالبات النص الطبيعي. أبلغ الدراسات الحديثة أن التصنيف المباشر الفوري يزيل الحاجة إلى ضبط الدقيقة ولكن يفتقر إلى إمكانية التوسع للبيانات والاستدلال. تقترح هذه ال ورقة تقنية تكبير بيانات جديدة ترفع نماذج لغة واسعة النطاق لتوليد عينات نصية واقعية من مزيج من العينات الحقيقية. نقترح أيضا استخدام الملصقات الناعمة المتوقعة من النماذج اللغوية، وتقطير المعرفة بفعالية من نماذج اللغة واسعة النطاق وإنشاء اضطرابات نصية في وقت واحد. نقوم بإجراء تجارب تكبير البيانات على مهام التصنيف المتنوعة وإظهار أن طريقتنا تتفوق بشكل كبير على أساليب تكبير النص الحالية. نقوم أيضا بإجراء تجارب في معيارنا المقترح حديثا لإظهار أن تأثير تكبير لا يعزى فقط إلى الحفظ. مزيد من دراسات الاجتثاث والتحليل النوعي توفر المزيد من الأفكار في نهجنا.
الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا لفرعية لورشة معالجة اللغات الطبيعية العربية السادسة (WANLP)؛تحليل السخرية وتحليل المعنويات.المنهجيات الخاصة بنا مدفوعة بفرضية أن التغريدات ذات الشعور السلبي والثغرات السلبية مع محتوى السخرية من غير المرجح أن يكون لها محتوى مسيء، وبالتالي، تؤدي إلى ضبط طراز التصنيف باستخدام كوربوس كبيرة من اللغة المسيئة، عملية التعلم للنموذج للكشف بشكل فعالالمعنويات ومحتويات السخرية.توضح النتائج فعالية نهجنا لمهمة الكشف عن السخرية على مهمة تحليل المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا