البشر مرنين بشكل ملحوظ عند فهم جمل جديدة تشمل مجموعات من المفاهيم التي لم تصادفها من قبل. وقد أظهر العمل الحديث أنه في حين أن الشبكات العميقة يمكن أن تحاكي بعض قدرات اللغة البشرية عند تقديمها مع جمل جديدة، فإن الاختلاف المنهجي يكشف عن القيود في قدرات
فهم اللغة للشبكات. نوضح أن هذه القيود يمكن التغلب عليها من خلال معالجة تحديات التعميم في مجموعة بيانات GSCAN، والتي تقيس صراحة مدى جودة الوكيل قادرة على تفسير الأوامر اللغوية الجديدة في الرؤية، على سبيل المثال، أزواج رواية من الصفات والأسماء. مبدأ المفتاح الذي نستخدمه هو التركيز: أن الهيكل التركيبي للشبكات يجب أن يعكس الهيكل التركيبي للنطاق المشكلة التي يعالجونها، مع السماح لمعايير أخرى أن تتعلم نهاية إلى نهاية. إننا نبني آلية للأغراض العامة التي تمكن الوكلاء من تعميم فهم لغتهم إلى المجالات التركيبية. من الأهمية، لدى شبكتنا نفس الأداء الحديثة مثل العمل السابق أثناء تعميم معرفته عندما لا يعمل العمل السابق. توفر شبكتنا أيضا مستوى من الترجمة الشفوية التي تمكن المستخدمين من تفتيش ما يتعلمه كل جزء من الشبكات. إن فهم اللغة الأسطورية القوية دون إخفاقات مثيرة وبدون حالات الزاوية أمر بالغ الأهمية لبناء الروبوتات الآمنة والعادلة؛ نوضح الدور الهام الذي يمكن أن يلعبه التركيز في تحقيق هذا الهدف.
بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معج
مي يعمل فيه التعميم يتفق مع الكلمة الأخيرة الملاحظة، ونموذج السياق النحامي الذي يتوافق فيه التعميم مع الهيكل العالمي للمدخلات. في تجارب باللغة الإنجليزية والفنلندية والماندرين ولغات منتظمة عشوائية، نوضح أن نماذج اللغة العصبية محبط بين هذين الشكلين من التعميم: تنبؤاتها تقارب جيدا من خلال مزيج خطي من التوزيعات التنبؤية المعجمية والنوعية. ثم نوضح ذلك، في بعض اللغات، يتوسط الضوضاء شكلين التعميم: الضوضاء المطبقة على رموز المدخلات تشجع التعميم النحوي، في حين أن الضوضاء في تمثيلات التاريخ تشجع التعميم المعجمي. أخيرا، نقدم شرحا نظريا أوليا لهذه النتائج من خلال إثبات أن سلوك الاستيفاء الملحوظ متوقع في النماذج الخطية من السجل مع هيكل ارتباط ميزة معينة. تساعد هذه النتائج في تفسير فعالية خططيتين تنظيمي شعبيتين وإظهار أن جوانب تعميم نموذج التسلسل يمكن فهمها والسيطر عليها.
على الرغم من تطبيق نماذج التسلسل العصبي للتسلسل بنجاح على التحليل الدلالي، إلا أنها تفشل في التعميم التركيبي، أي أنها غير قادرة على التعميم بشكل منهجي لتركيبات غير مرئية من مكونات المشاهدة. بدافع من التحليل الدلالي التقليدي حيث يتم احتساب التركيز بشك
ل صريح من قبل النحو الرمزي، نقترح إطار فك التشفير الجديد الذي يحافظ على التعبير عن النماذج والعمومية من نماذج التسلسل إلى التسلسل مع تضم محاذاة على غرار المعجم ومعالجة المعلومات المنفذة. على وجه التحديد، نقوم بتحلل فك التشفير في مرحلتين حيث يتم وضع علامة على حامل الإدخال أولا مع رموز الدلالية التي تمثل معنى الكلمات الفردية، ثم يتم استخدام نموذج تسلسل إلى تسلسل للتنبؤ بتصميم تمثيل المعنى النهائي على الكلام والعلامة المتوقعة تسلسل. النتائج التجريبية على ثلاث مجموعات بيانات تحليل الدلالات توضح أن النهج المقترح يحسن باستمرار التعميم التركيبي عبر الهندسة النموذجية والنطاقات والإضفاءات الدلالية.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل
م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
وقد تبين أن الكثير من التقدم الأخير في NLU كان بسبب الاستدلال الخاصة بمواد بيانات التعلم من النماذج.نقوم بإجراء دراسة حالة للتعميم في NLI (من MNLI إلى مجموعة بيانات Hans التي شيدت عدسي) في مجموعة من الهيغات القائمة على Bert (محولات ومحولات سيامي و De
viasing Hex)، وكذلك مع إعانة البيانات وزيادة حجم النموذج.نبلغ 2 استراتيجيات ناجحة و 3 غير ناجحة، وكلها توفر رؤى في كيفية تعلم النماذج القائمة على المحولات التعميم.
يمكن للبشر تعلم مهمة لغة جديدة بكفاءة مع عدد قليل فقط من الأمثلة، من خلال الاستفادة من معارفهم التي تم الحصول عليها عند تعلم المهام السابقة. في هذه الورقة، نستكشف ما إذا كان يمكن الحصول على قدرة تعميم المهام عبر المهام المباشرة، وتطبيقها بشكل أكبر عل
ى بناء عدد قليل من المتعلمين لقلة طلقات عبر مهام NLP المتنوعة. نقدم Crossfit، وهي إعداد مشكلة في دراسة قدرة تعميم المهام عبر المهام، والتي توحد من أقسام المهام / غير المرئية، والوصول إلى البيانات أثناء مراحل التعلم المختلفة، وبروتوكولات التقييم. لإنشاء أقسام مهمة مختلفة / غير مرئية في CrossFit وتسهيل التحليل المتعمق، نقدم صالة الألعاب الرياضية ذات القليل من الرصاص NLP، مستودع 160 مهام NLP قليلة متنوعة تم إنشاؤها من مجموعات بيانات NLP مفتوحة الوصول وتحويلها إلى نص موحد لتنسيق النص. يكشف تحليلنا أن قدرة التعلم القليلة من التعلم على المهام غير المرئية يمكن تحسينها عبر مرحلة التعلم المنبع باستخدام مجموعة من المهام المشاهدة. نلاحظ أيضا أن اختيار مهام التعلم المنبع يمكن أن يؤثر بشكل كبير على أداء قليل الطلقات على المهام غير المرئية، ويطلب المزيد من التحليلات حول التشابه المهمة وقابلية النقل.
تحدي واحد في تقييم نماذج الإجابة عن السؤال المرئي (VQA) في إعداد التكيف عبر DataSet هو أن التحولات التوزيع متعددة الوسائط متعددة، مما يجعل من الصعب تحديد ما إذا كانت التحولات في ميزات مرئية أو لغة تلعب دورا رئيسيا. في هذه الورقة، نقترح إطارا شبه أوتو
ماتيكي لإنشاء تحولات محددة من خلال إدخال وحدة نمطية لجيل الإجابات مرئية يمكن السيطرة عليها (VQAG) قادرة على توليد أزواج للإجابة على الأسئلة ذات الصلة والتنوع مع نمط البيانات المطلوب. نستخدمها لإنشاء crossvqa، وهي مجموعة من تقسيم الاختبار لتقييم مجموعات بيانات VQA2، VizWiz، وفتح الصور المفتوحة. نحن نقدم تحليلا لمجموعات البيانات التي تم إنشاؤها وإظهار فائدتها باستخدامها لتقييم العديد من أنظمة VQA الحديثة. اكتشاف واحد مهم هو أن التحولات المرئية في VQA عبر DataSet يهم أكثر من التحولات اللغوية. على نطاق أوسع، نقدم إطارا قابل للتطوير لتقييم الجهاز بشكل منهجي مع التدخل البشري القليل.
نقترح نموذج فرقة للتنبؤ بالتعقيد المعجمي للكلمات وتعبيرات متعددة الكلمات (MWES).يتلقى النموذج كإدخال جملة بكلمة مستهدفة أو MWE وتخرج درجة التعقيد.بالنظر إلى أن التحدي الرئيسي مع هذه المهمة هو الحجم المحدود للبيانات المشروح، يعتمد نموذجنا على تمثيلات
السياقية المحددة مسبقا من نماذج اللغة القائمة على المحولات المختلفة (IE، Bert and Roberta)، وعلى مجموعة متنوعة منطرق التدريب لمزيد من تعزيز التعميم النموذجي والترويج: التعلم متعدد الخطوات من الترابط والتعلم متعدد المهام، والتدريب الخصم.بالإضافة إلى ذلك، نقترح إثراء التمثيلات السياقية بإضافة ميزات مصنوعة يدوية أثناء التدريب.حقق نموذجنا نتائج تنافسية ومرتبة بين أنظمة أفضل 10 في كلتا المهام الفرعية.
لقد تم الاعتراف بأهمية بناء المحللين الدلاليين الذين يمكن تطبيقهم على مجالات جديدة وإنشاء برامج غير مرئية في التدريب لفترة طويلة، وقد تم الاعتراف لفترة طويلة، وتصبح مجموعات البيانات اختبار الأداء خارج النطاق متاحة بشكل متزايد. ومع ذلك، فقد تم تخصيص ا
هتمام ضئيل أو معدوني لتعلم الخوارزميات أو الأهداف التي تعزز تعميم المجال، حيث تعتمد جميع الأساليب الموجودة تقريبا على التعلم المعياري الإشرافي. في هذا العمل، نستخدم إطارا للتعلم من التعريف الذي يستهدف تعميم المجال الصفرية للتحليل الدلالي. نحن نطبق خوارزمية التدريب النموذجية المرجعية التي تحاكي تحليل اللقطة الصفرية من خلال بناء القطار الافتراضي ومجموعات الاختبار من مجالات Disfoint. يستحق الهدف التعلم عن الحدس الذي يجب عليه اتخاذ خطوات التدرج التي تعمل على تحسين أداء مجال المصدر أيضا على تحسين أداء المجال المستهدف، وبالتالي تشجيع المحلل المحلل على تعميم المجالات المستهدفة غير المرئية. النتائج التجريبية على (الإنجليزية) عن مجموعات البيانات العنكبوت والصينية الصينية تظهر أن هدف التعلم التلوي يعزز بشكل كبير أداء محلل الأساس.
تعد التعميم المرتبطة مشكلة معروفة في الكشف عن الموقف (SD)، حيث تميل النظم إلى الأداء بشكل سيئ عند تعرضها للأهداف غير المرئية أثناء التدريب.بالنظر إلى أن شرح البيانات باهظ الثمن وتستغرق وقتا طويلا، فإن إيجاد طرق للاستفادة من البيانات غير المستقرة غير
المسبقة يمكن أن تقدم فوائد كبيرة.في هذه الورقة، نطبق إطارا إشرافه ضعيفا لتعزيز التعميم الشامل من خلال البيانات المشروحة بتهمة التوحيد.نحن نركز على Twitter SD وإظهار تجريبيا من أن دمج البيانات الاصطناعية مفيدة للتعميم الشامل، مما يؤدي إلى تحسينات كبيرة في الأداء، مع المكاسب في درجات F1 تتراوح بين +3.4 إلى +5.1.