ترغب بنشر مسار تعليمي؟ اضغط هنا

تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع مل المسبق هذا الهدف من خلال تدريب شبكة واحدة في وقت واحد على مجموعات بيانات متعددة، والتي تعمل بشكل جيد في المتوسط ​​ولكنها عرضة للتوزيعات الفرعية المختلفة أو غير الضرورية ويمكن نقلها أسوأ مقارنة بالنماذج المصدر بأكثر تداخل مع DataSet المستهدف. يتمثل نهجنا في نموذج سؤال متعدد البيانات مستجيب مع مجموعة من خبراء DataSet واحد، من خلال تدريب مجموعة من وحدات محول محول خفيفة الوزن وخفيفة الوزن (Houlsby et al.، 2019) التي تشترك في نموذج محول أساسي. نجد أن خبراء مجموعة البيانات متعددة المحولات (صنع) تفوقوا جميع خطوط الأساس لدينا من حيث دقة التوزيع، والأساليب البسيطة القائمة على متوسط ​​المعلمة تؤدي إلى تحسين التعميم الصفرية وأداء قليل من الرصاص، مما يوفر قويا و نقطة انطلاق متعددة الاستخدامات لبناء أنظمة مفهوم القراءة الجديدة.
انفجرت الإجابة على الأسئلة المفتوحة في مجال الشعبية مؤخرا بسبب نجاح نماذج استرجاع كثيفة، والتي تجاوزت النماذج المتناقضة باستخدام بعض الأمثلة التدريبية الإشراف فقط. ومع ذلك، في هذه الورقة، نوضح النماذج الكثيفة الحالية ليست بعد الجراد المقدس من استرجاع ها. نقوم أولا بإنشاء المنفيات، وهي مجموعة من الأسئلة البسيطة والغنية للكيان بناء على حقائق من Wikidata (على سبيل المثال، أين ولد الفرح؟ نحن نبحث في هذه القضية والكشف عن أن المستردات الكثيفة لا يمكن أن تعمم فقط إلى الكيانات المشتركة ما لم يلاحظ أن نمط السؤال صراحة أثناء التدريب. نحرق اثنين من الحلول البسيطة نحو معالجة هذه المشكلة الحاسمة. أولا، نوضح أن تكبير البيانات غير قادر على إصلاح مشكلة التعميم. ثانيا، نجيد أن تشفير مرور أكثر قوة يساعد في تسهيل التكيف بشكل أفضل باستخدام تشفير الأسئلة المتخصصة. نأمل أن يتم إلقاء عملنا الضوء على التحديات في إنشاء مسترد كثيف قوي، يعمل بشكل جيد عبر توزيعات المدخلات المختلفة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا