تتمثل مهمة البحث في التعليمات البرمجية الدلالية في استرداد مقتطفات التعليمات البرمجية من Corpus التعليمات البرمجية المصدر بناء على حاجة المعلومات المعبر عنها باللغة الطبيعية.إن الفجوة الدلالية بين اللغات الطبيعية ولغات البرمجة قد تعتبر منذ فترة طويلة واحدة من أهم العقبات التي تحول دون فعالية أساليب استرجاع المعلومات المستندة إلى الكلمة (IR).إنه افتراض شائع أن أساليب "كيس الأشعة تحت الحاجيات" التقليدية غير المناسبة ل Code Code البحث: إن عملنا يبحث بشكل تجريبي هذا الافتراض.على وجه التحديد، ندرس فعالية أساليب الأشعة تحت الحمراء التقليدية، وهي BM25 و RM3، على Codesearchnet Corpus، والتي تتكون من استفسارات اللغة الطبيعية مقترنة مقتطفات التعليمات البرمجية ذات الصلة.نجد أن الطرق القائمة على الكلمة الرئيسية تتفوق على العديد من النماذج العصبية المسبقة.قارننا أيضا العديد من استراتيجيات المعالجة المسبقة للبيانات التعليمات البرمجية والعثور على التوت التخصصي الذي يحسن الفعالية.
The task of semantic code search is to retrieve code snippets from a source code corpus based on an information need expressed in natural language. The semantic gap between natural language and programming languages has for long been regarded as one of the most significant obstacles to the effectiveness of keyword-based information retrieval (IR) methods. It is a common assumption that traditional'' bag-of-words IR methods are poorly suited for semantic code search: our work empirically investigates this assumption. Specifically, we examine the effectiveness of two traditional IR methods, namely BM25 and RM3, on the CodeSearchNet Corpus, which consists of natural language queries paired with relevant code snippets. We find that the two keyword-based methods outperform several pre-BERT neural models. We also compare several code-specific data pre-processing strategies and find that specialized tokenization improves effectiveness.
المراجع المستخدمة
https://aclanthology.org/
يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخف
مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات ال
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على
تم اعتماد الأساليب القائمة على الرسم البياني مؤخرا لتلخيص نص مبادرة.ومع ذلك، فإن الأساليب القائمة على الرسم البياني الموجودة فقط تنظر فقط في علاقات الكلمات أو معلومات الهيكل، والتي تهمل الارتباط بينهما.في وقت واحد التقاط علاقات الكلمة ومعلومات الهيكل
من المفترض أن تكون المعلومات المتسلسلة، A.AK.A.، أمر ضروري لمعالجة تسلسل مع الشبكة العصبية المتكررة أو تشفير الشبكة العصبية المتكررة.ومع ذلك، هل من الممكن ترميز اللغات الطبيعية دون أوامر؟بالنظر إلى كيس من الكلمات من جملة مضطربة، قد لا يزال البشر قادر