ترغب بنشر مسار تعليمي؟ اضغط هنا

بفضل القدرة التعليمية القوية للتعلم التعلم العميق، خاصة تقنيات ما قبل التدريب مع فقدان نموذج اللغة، حققت تحليل التبعية دفعة كبيرة في الأداء في السيناريو داخل المجال مع بيانات التدريب المسمى الوفيرة للمجالات المستهدفة. ومع ذلك، يتعين على مجتمع التحليل مواجهة الإعداد الأكثر واقعية حيث ينخفض ​​أداء التحليل بشكل كبير عند وجود البيانات المسمى فقط لعدة مجالات خارجية ثابتة. في هذا العمل، نقترح نموذجا جديدا لتحليل التبعية عبر المصدر متعدد الاستخدامات. يتكون النموذج من مكونين، I.E.، شبكة توليد المعلمة لتمييز الميزات الخاصة بالمجال، وشبكة خصومة لتعلم التمثيلات الثابتة للمجال. تظهر التجارب في مجموعة بيانات NLPCC-2019 التي تم إصدارها مؤخرا لمحافلات التبعية متعددة المجال أن طرازنا يمكن أن يحسن باستمرار أداء أداء تحليل المجال عبر النطاق بنقطة حوالي 2 نقطة في دقة المرفقات المسمى (LAS) عبر خطوط خطوط خطوط قوية محسنة من بيرت. يتم إجراء تحليل مفصل للحصول على المزيد من الأفكار حول مساهمات المكونين.
نقترح codeqa، وهو سؤالا حرة يرد على مجموعة البيانات لغرض فهم التعليمات البرمجية المصدر: إعطاء مقتطف رمز وسؤال، مطلوب إجابة نصية أن يتم إنشاؤها.يحتوي Codeqa على مجموعة بيانات Java مع 119،778 أزواج من الإجابات السؤال ومجموعة بيانات بيثون مع 70،085 زوجا للإجابة على الإجابات.للحصول على أسئلة وأجوبة طبيعية وفية، نقوم بتنفيذ القواعد النحوية والتحليل الدلالي لتحويل تعليقات التعليمات البرمجية إلى أزواج الإجابة على الأسئلة.نقدم عملية البناء وإجراء التحليل المنهجي لمجموعة البيانات الخاصة بنا.يتم عرض نتائج التجربة التي حققتها العديد من خطوط الأساس العصبية على DataSet لدينا ومناقشتها.في حين أن البحث عن الإجابة على السؤال والفهم قراءة الآلة يتطور بسرعة، إلا أن القليل من العمل السابق قد لفت الانتباه إلى إجابة سؤال التعليمات البرمجية.يمكن أن تكون هذه البيانات الجديدة هذه بمثابة معيار بحث مفيد لفهم شفرة المصدر.
تركز العديد من مهام NLG مثل التلخيص أو استجابة الحوار أو سؤال المجال المفتوح، والتركيز بشكل أساسي في نص مصدر من أجل توليد استجابة مستهدفة.ومع ذلك، يقع هذا النهج القياسي، عندما يكون نية المستخدم أو سياق العمل غير قابل للاسترداد بسهولة بناء على النص ال مصدر هذا فقط - سيناريو الذي نقوله هو أكثر من القاعدة من الاستثناء.في هذا العمل، نجرب أن أنظمة NLG بشكل عام يجب أن تضع مستوى أعلى بكثير من التركيز على استخدام سياق إضافي، وتشير إلى أن الأهمية (كما هو مستخدم باسترجاع المعلومات) تعتبر كأداة حاسمة لتصميم النص الموجه للمستخدمالمهام - المهام.ونحن نناقش كذلك الأضرار والمخاطر المحتملة حول هذه التخصيص، وتجادل أن التصميم الحساس في القيمة يمثل طريقا حاسما للأمام من خلال هذه التحديات.
استخدمت الأبحاث السابقة ميزات لغوية لإظهار أن الترجمات تظهر آثار التداخل اللغوي المصدر وأن الأشجار البلورية بين اللغات يمكن إعادة بناءها من نتائج الترجمات إلى نفس اللغة. أظهرت الأبحاث الحديثة أن مثيلات الترجمة (التداخل اللغوي المصدر) يمكن اكتشافها في مساحات تضمينها، ومقارنة مساحات الأدوات الخاصة ببيانات اللغة الأصلية مع أماكن التضمين الناتجة عن الترجمات إلى نفس اللغة، باستخدام اختلاف بسيط يستند إلى eigenvector من قياس ISOMORPHIMM. حتى الآن، لا يزال هناك سؤال مفتوح ما إذا كان يمكن إجراء تدابير البديلة البديلة البديلة البديلة نتائج أفضل. في هذه الورقة، نحن (ط) استكشاف مسافة Groomov-Hausdorff، (II) تقديم نسخة طيفية جديدة من الطريقة القائمة على eigenvector، و (III) تقييم جميع النهج مقابل قاعدة بيانات نموذجية لغوية واسعة (URIEL). نظرا لأن المسافات اللغوية الناتجة عن نهج التزييف الطيفي لدينا يمكن أن تتكاثر الأشجار الوراثية على قدم المساواة مع العمل السابق دون الحاجة إلى أي معلومات لغوية واضحة وأن النتائج يمكن تمديدها إلى اللغات غير الهندية الأوروبية. أخيرا، نظهر أن الطرق قوية تحت مجموعة متنوعة من ظروف النمذجة.
قيود مشاركة البيانات شائعة في مجموعات بيانات NLP.الغرض من هذه المهمة هو تطوير نموذج مدرب في مجال المصدر لجعل تنبؤات للمجال المستهدف مع بيانات المجال ذات الصلة.لمعالجة هذه المسألة، قدم المنظمون النماذج التي يتم ضبطها بشكل جيد على عدد كبير من بيانات مج ال المصدر على النماذج المدربة مسبقا وبيانات DEV للمشاركين.ولكن لم يتم توزيع بيانات مجال المصدر.تصف هذه الورقة النموذج المقدم إلى مهمة NER (التعرف على كيان الاسم) وطرق تطوير النموذج.كقليل من البيانات المقدمة، تكون النماذج المدربة مسبقا مناسبة لحل المهام عبر المجال.يمكن أن تكون النماذج التي تم ضبطها من قبل عدد كبير من مجال آخر فعال في مجال جديد لأن المهمة لم تكن هناك تغيير.
يعد التكيف المجال المجاني للمصدر خطا ناشئا في أبحاث التعلم العميق لأنه يرتبط ارتباطا وثيقا ببيئة العالم الحقيقي.ندرس مخصصات المجال في مشكلة تسلسل التسلسل حيث يتم تقديم الطراز الذي تم تدريبه على بيانات مجال المصدر.نقترح طريقتين: محول الذات وتدريب المص نف الانتقائي.المحول الذاتي هو طريقة تدريب تستخدم تسميات زائفة على مستوى الجملة التي تمت تصفيتها بواسطة عتبة الانتروب الذاتي لتوفير الإشراف على النموذج بأكمله.يستخدم التدريب الانتقائي مؤشر التسميات الزائفة على مستوى الرمز المميز ويشرف على طبقة التصنيف فقط من النموذج.يتم تقييم الأساليب المقترحة على البيانات التي توفرها مهمة Semeval-2021 10 وتحقيق المحول الذاتي أداء المرتبة الثانية.
تقدم هذه الورقة المهمة المشتركة تتكيف المجال المجانية للمصدر التي عقدت داخل Semeval-2021.كان الهدف من المهمة هو استكشاف تكيف نماذج تعليم الآلات في مواجهة قيود مشاركة البيانات.على وجه التحديد، نعتبر السيناريو حيث توجد التعليقات التوضيحية للنطاق ولكن ل ا يمكن تقاسمها.بدلا من ذلك، يتم تزويد المشاركين مع النماذج المدربة على هذه البيانات (المصدر).يتلقى المشاركون أيضا بعض البيانات المسمى من مجال جديد (تطوير) لاستكشاف خوارزميات تكيف المجال.ثم يتم اختبار المشاركين على البيانات التي تمثل مجال جديد (الهدف).استكشفنا هذا السيناريو مع اثنين من المهام الدلالية المختلفة: الكشف عن النفي (مهمة تصنيف النص) والتعرف على تعبير الوقت (مهمة وضع علامة تسلسل).
تعتمد معالجة شفرة المصدر بشكل كبير على الأساليب المستخدمة على نطاق واسع في معالجة اللغة الطبيعية (NLP)، ولكنها تنطوي على تفاصيل يجب مراعاتها في الاعتبار لتحقيق جودة أعلى.مثال على هذا الخصوصية هو أن دلالات متغير محددة ليس فقط باسمها ولكن أيضا من خلال السياقات التي يحدث فيها المتغير.في هذا العمل، نطور embeddings الديناميكي، وهي آلية متكررة تضبط الدلالات المستفادة للمتغير عند حصولها على مزيد من المعلومات حول دور المتغير في البرنامج.نظهر أن استخدام المدينات الديناميكية المقترحة يحسن بشكل كبير من أداء الشبكة العصبية المتكررة، في إكمال التعليمات البرمجية ومهام إصلاح الأخطاء.
هناك مصلحة ناشئة في تطبيق نماذج معالجة اللغة الطبيعية لمهام معالجة التعليمات البرمجية المصدر.أحد المشاكل الرئيسية في تطبيق التعلم العميق لهندسة البرمجيات هو أن الكود المصدري غالبا ما يحتوي على الكثير من المعرفات النادرة، مما يؤدي إلى مفردات ضخمة.نقتر ح طريقة بسيطة، ولكنها فعالة، بناء على معرفة الهوية المعرفية، للتعامل مع المعرفات خارج المفردات (OOV).يمكن التعامل مع طريقتنا كخطوة مسبقة مسبقا، وبالتالي، تسمح بتنفيذ سهولة.نظرا لأن طريقة إخفاء مصطلحات OOV المقترحة تحسن بشكل كبير من أداء المحول في مهام معالجة التعليمات البرمجية: إكمال التعليمات البرمجية وإصلاح الأخطاء.
تم دراسة تأثير مصادر تباين تصميم المربع اللاتيني السحري في تخفيض قيمة الخطأ التجريبي، في تجارب الأحياء الدقيقة (بكتريا حمض اللبن) و اثبات فاعلية المستطيلات العشوائية كأحد مصادر تباين المربع اللاتيني السحري، حيث تم إجراء توزيع عشوائي ل ( 6 ) معاملا ت مفترضة على ( 36 ) وحدة تجريبية و قد كررت عملية التوزيع ( 150 ) مرة بهدف الحصول على مربعات لاتينية سحرية تتحقق فيها الشروط التي تظهر فيها المعاملة الواحدة مرة واحدة في السطر و العمود، و المستطيل ضمن التصميم الواحد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا