ترغب بنشر مسار تعليمي؟ اضغط هنا

BACK-الكلمات الأساسية للبحث عن رمز الدلالي

Bag-of-Words Baselines for Semantic Code Search

144   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتمثل مهمة البحث في التعليمات البرمجية الدلالية في استرداد مقتطفات التعليمات البرمجية من Corpus التعليمات البرمجية المصدر بناء على حاجة المعلومات المعبر عنها باللغة الطبيعية.إن الفجوة الدلالية بين اللغات الطبيعية ولغات البرمجة قد تعتبر منذ فترة طويلة واحدة من أهم العقبات التي تحول دون فعالية أساليب استرجاع المعلومات المستندة إلى الكلمة (IR).إنه افتراض شائع أن أساليب "كيس الأشعة تحت الحاجيات" التقليدية غير المناسبة ل Code Code البحث: إن عملنا يبحث بشكل تجريبي هذا الافتراض.على وجه التحديد، ندرس فعالية أساليب الأشعة تحت الحمراء التقليدية، وهي BM25 و RM3، على Codesearchnet Corpus، والتي تتكون من استفسارات اللغة الطبيعية مقترنة مقتطفات التعليمات البرمجية ذات الصلة.نجد أن الطرق القائمة على الكلمة الرئيسية تتفوق على العديد من النماذج العصبية المسبقة.قارننا أيضا العديد من استراتيجيات المعالجة المسبقة للبيانات التعليمات البرمجية والعثور على التوت التخصصي الذي يحسن الفعالية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخف ض.نظرا لأن الكلمات المتنوعة الدلوية موجودة في سياقات مختلفة، فإننا قادرون على استبدال الكلمات مع مجموعاتهم وما زالت تميز معاني الكلمة التي تعتمد على سياقاتها.نقوم بتصميم العديد من الخوارزميات التي تحسب تجمعات متنوعة تستند إلى أخذ العينات العشوائية، مسافات هندسية، وتعظيم انتروبيا، ونثبت ضمانات رسمية للخوارزميات القائمة على الانتروبوي.تظهر النتائج التجريبية أن أساليبنا تعمم طرازات NLP وإظهار الدقة المعززة على وضع علامات نقاط البيع ومهام LM وتحسينات كبيرة على مهام الترجمة الآلية المتوسطة الحجم، ما يصل إلى +6.5 نقطة بلو.يتوفر شفرة المصدر لدينا في https://github.com/abdulrafae/dg.
مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات ال تقليدية. نظرا لأن المحتوى مليء بالكلمات السامة التي لم تتم كتابتها وفقا لإملاء القاموس، فإن الحضور للشخصيات الفردية أمر بالغ الأهمية. لذلك، نستخدم ManalBerT لاستخراج الميزات بناء على أحرف كلمة. يتكون من وحدة LiftCNN التي تتعلم تضمين الأحرف من السياق. هذه هي، إذن، تغذيها بنية بيرت المعروفة. طريقة حقيبة الكلمات، من ناحية أخرى، تتحسن كذلك على ذلك بالتأكد من أن بعض الكلمات السامة المستخدمة في كثير من الأحيان تسمى وفقا لذلك. مع اختلاف ~4 في المئة من الفريق الأول، احتل نظامنا المرتبة 36 في المسابقة. يتوفر الكود لمزيد من البحث واستكمال النتائج.
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على الرغم من فعاليته، غالبا ما يتضمن هذا الخط الأنابيب نماذج عصبية متعددة تتطلب أوقات الاستدلال الطويلة. بالإضافة إلى ذلك، تحسين كل وحدة بشكل مستقل يتجاهل التبعيات بينهم. لمعالجة هذه العيوب، نقترح دمج إعادة صياغة استعلام المحادثة مباشرة في نموذج استرجاع كثيف. للمساعدة في هذا الهدف، نقوم بإنشاء مجموعة بيانات مع ملصقات ذات صلة زائفة للبحث عن المحادثة للتغلب على عدم وجود بيانات تدريب واستكشاف استراتيجيات تدريب مختلفة. نوضح أن نموذجنا يعيد كتابة استعلامات المحادثة بشكل فعال كتمثيلات كثيفة في البحث عن المحادثة والفتح عن نطاق البيانات. أخيرا، بعد مراعاة أن طرازنا يتعلم ضبط نموذج L2 من Arquer Token Ageddings، فإننا نستفيد من هذه الخاصية لاسترجاع الهجين ودعم تحليل الأخطاء.
تم اعتماد الأساليب القائمة على الرسم البياني مؤخرا لتلخيص نص مبادرة.ومع ذلك، فإن الأساليب القائمة على الرسم البياني الموجودة فقط تنظر فقط في علاقات الكلمات أو معلومات الهيكل، والتي تهمل الارتباط بينهما.في وقت واحد التقاط علاقات الكلمة ومعلومات الهيكل من الجمل، نقترح شبكة الرسم البياني المزدوج الرواية لتلخيص جملة الاختيارات.على وجه التحديد، نقوم أولا بإنشاء رسم بياني للسيناريو الدلالي والكلمة الدلالية الرسم البياني على أساس FRAMENET، وبالتالي تعلم تمثيلاتها وطريقة الانصهار الرسم البياني للتصميم لتعزيز ارتباطها والحصول على تمثيل دلالي أفضل لجيل الملخص.تظهر النتائج التجريبية النموذج لدينا تفوق الأساليب الموجودة في مجموعة بيانات قياسية شعبية، I.E.، GIGAWORD و DUC 2004.
من المفترض أن تكون المعلومات المتسلسلة، A.AK.A.، أمر ضروري لمعالجة تسلسل مع الشبكة العصبية المتكررة أو تشفير الشبكة العصبية المتكررة.ومع ذلك، هل من الممكن ترميز اللغات الطبيعية دون أوامر؟بالنظر إلى كيس من الكلمات من جملة مضطربة، قد لا يزال البشر قادر ين على فهم ما تعني هذه الكلمات عن طريق إعادة ترتيبها أو إعادة بناءها.مستوحاة من هذا الحدس، في هذه الورقة، نقوم بإجراء دراسة للتحقيق في كيفية تأثير معلومات الطلب في تعلم اللغة الطبيعية.من خلال إدارة مقارنات شاملة، قارأت كميا قدرة العديد من النماذج العصبية الممثلة لتنظيم الأحكام من كيس من الكلمات بموجب ثلاثة سيناريوهات نموذجية، وتلخيص بعض النتائج والتحديات التجريبية، والتي يمكن أن تسلي الضوء على البحوث المستقبلية على خط العمل هذا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا