ترغب بنشر مسار تعليمي؟ اضغط هنا

إعادة التفكير في أهمية أعمال ضبط المهام المتوسطة

Rethinking Why Intermediate-Task Fine-Tuning Works

206   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا، فلا تزال غير واضحة لماذا وعندما يعمل.تبين الأبحاث السابقة أن هذه المهام الوسيطة التي تنطوي على استنتاج معقد، مثل التفكير المنطقي، والعمل بشكل جيد بشكل جيد لروبرتا كبير.في هذه الورقة، نكتشف أن التحسن من المهمة المتوسطة يمكن أن يكون متعامدا له يحتوي على التفكير أو غيرها من المهارات المعقدة --- يمكن له مهمة تمييزية مزيفة حقيقية مزيفة من قبل GPT2 يمكن أن تستفيد مهام مستهدفة متنوعة.نقوم بإجراء تجارب مكثفة لدراسة تأثير العوامل المختلفة على الطفولة.تشير هذه النتائج إلى إعادة التفكير في دور الصقل الدقيق المتوسطة في خط أنابيب المقابلة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمج الات مخصصة جديدة. في هذا العمل، نقدم طريقة جديدة ومتعمول، تسمى Wikitransfer، للحصول على نماذج مطاطية دقيقة مسبقا للتلخيص بطريقة غير منشأة، خاصة بموجب البيانات. Wikitransfer Ground-Descrees نماذج مسبقا على الملخصات الزائفة، التي تم إنتاجها من بيانات Wikipedia العامة، والتي تحتوي على خصائص DataSet المستهدفة، مثل طول ومستوى التجريد من الملخصات المرغوبة. حقق نماذج Wikitransfer أداء موجات خارجي من بين الفن، وهو أداء التلخيص المبشط عن الصفر على مجموعة بيانات CNN-Dailymail وإظهار فعالية نهجنا على ثلاث مجموعات بيانات متنوعة إضافية. هذه النماذج هي أكثر قوة للبيانات الصاخبة وكذلك تحقيق أداء أقل أو قابلة للمقارنة قليلا باستخدام 10 و 100 أمثلة تدريبية عند مقارنة بنقل القليل من بيانات الملخصات الأخرى. لتعزيز الأداء، نؤدي إلى زيادة تكبير البيانات عبر الترجمة المستديرة الرحلة وكذلك إدخال مصطلح تنظيمي لتحسين تحويل القليل من الرصاص. لفهم دور جوانب البيانات في أداء النقل ونوعية ملخصات الإخراج الناتجة، فإننا ندرس تأثير مكونات مكونات بيانات الطاقة الدقيقة الخاصة بنا وتحليل الأداء القليل من الأداء باستخدام التقييم التلقائي والبشري.
تحسنت نماذج اللغة المدربة مسبقا للمحولات بشكل كبير أداء مختلف مهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. في حين أن هذه النماذج فعالة وسائدة، فإن هذه النماذج عادة ما تكون كبيرة كبيرة لسيناريوهات النشر المحدودة للمورد. وهكذا تعمل مؤشر ترابط ا لبحث على تطبيق تقنيات تشذيب الشبكة بموجب النموذج المؤمني ثم Finetune الذي تم تبنيه على نطاق واسع في NLP. ومع ذلك، فإن نتائج التذكيرية الحالية على المحولات القياسية، مثل بيرت، ليست ملحوظة مثل النتائج التقليم في أدب الشبكات العصبية التنافعية (CNNS). على وجه الخصوص، تنص الحكمة الشائعة في تشذيم CNN على أن تقنية تشذيب متناثرة يضغط نموذجا أكثر من ذلك الذي تم الحصول عليه عن طريق تقليل عدد القنوات والطبقات، بينما تعمل الأعمال الموجودة على تشذيب متفرق من بيرت نتائج أدنى من نظرائها الصغير الكثيف مثل Tinybert. في هذا العمل، نهدف إلى ملء هذه الفجوة من خلال دراسة كيفية نقل المعرفة وفقدت خلال عملية القطار المسبق واللغمة الدقيقة، واقتراح عملية تشذيب باري المعرفة التي تحقق نتائج متفوقة بشكل كبير من الأدب الموجود. نعرض لأول مرة أن تشذيب متفرق يضغط نموذج بيرت أكثر بكثير من تقليل عدد القنوات والطبقات. تشير التجارب في مجموعات بيانات متعددة من مؤشر الغراء إلى أن أسلوبنا تتفوق على المنافسين الرائدين مع ضغط وزن / يتخبط 20 مرة وفقدان مهملا في دقة التنبؤ.
نقدم DynaBench، وهي منصة مفتوحة المصدر لإنشاء مجموعة البيانات الديناميكية ومعيار النموذج.يعمل Dynabench في متصفح ويب ويدعم إنشاء DataSet Indictet من الإنسان والنموذج في الحلقة: يسعى المحلقون إلى إنشاء أمثلة سيتطلب من النموذج المستهدف، لكن شخص آخر لن يفعله.في هذه الورقة، نجرب أن Dynabench يعالج حاجة حاسمة في مجتمعنا: تحقق النماذج المعاصرة بسرعة الأداء المتميز على المهام القياسية ولكن مع ذلك فشلت في أمثلة التحدي البسيطة وتعثرت في سيناريوهات العالم الحقيقي.من خلال Dynabench، يمكن إنشاء DataSet، تطوير النموذج، وتقييم النماذج إبلاغ بعضها البعض مباشرة، مما يؤدي إلى معايير أكثر قوة وغنية بالمعلومات.نقوم بالإبلاغ عن أربع مهام NLP الأولي، مما يوضح هذه المفاهيم وتسليط الضوء على وعد المنصة، ومعالجة الاعتراضات المحتملة على المعايير الديناميكية كمعيار جديد للحقل.
المحولات هي شبكة عصبية مقرها الانتباه، والتي تتكون من اثنين من المواد الغذائية، وهي شبكة انتباه الذات (SAN) وشبكة الأعلاف إلى الأمام (FFN). يستكشف البحوث الحالية لتعزيز اثنين من الطبقة الفرعية بشكل منفصل لتحسين القدرة على محول تمثيل النص. في هذه الور قة، نقدم فهما جديدا للسان و FFN كشبكات انتباه قناع (مان) وإظهار أنهم حالتان خاصتان من مانتين مع مصفوفات قناع ثابت. ومع ذلك، فإن مصفوفات قناع ثابتة الحد من القدرة على نمذجة النمذجة في مجال التمثيل النصي. لذلك نقدم طبقة جديدة تسمى شبكة انتباه قناع ديناميكي (DMAN) مع مصفوفة قناع يمكن أن تكون قادرة على نموذج الحزين على التكيف. لتضمين مزايا DMAN و San و FFN، نقترح بنية طبقية متسلسلة للجمع بين الأنواع الثلاثة من الطبقات. تجارب شاملة على المهام المختلفة، بما في ذلك الترجمة العصبية لترجمة الآلات والرسوم النصية توضح أن نموذجنا يتفوق على المحول الأصلي.
تثبت نماذج اللغة القائمة على المحولات (LMS) على مجموعات نصية كبيرة تخزين ثروة من المعرفة الدلالية. ومع ذلك، 1) أنها ليست فعالة كوسميز الجملة عند استخدامها خارج الرف، و 2) وبالتالي لا تتأخر عادة وراء إعادة احتجازها بشكل تقريبي (E.G.، عبر اختيار الاستج ابة) حول مهام المحادثة مثل الكشف عن النوايا (ID). في هذا العمل، نقترح نقايد، وهو إجراء بسيط وفعالين من مرحلتين يقومون بتحويل أي ما قبل الاحتراق إلى تشفير محادثة عالمية (بعد المرحلة الأولى - Convfit-Conffit-ING) وتشمير الجملة التخصصية للمهام (بعد المرحلة 2). نوضح أن 1) محاكاة محادثة بالكامل غير مطلوبة، وأن LMS يمكن تحويل LMS بسرعة إلى ترميزات محادثة فعالة بكميات أصغر بكثير من البيانات غير المخلفات؛ 2) يمكن أن تكون LMS محددة ضبطها بشكل جيد في تشفير الجملة المتخصصة في المهام، وتحسينها للحصول على الدلالات الفاخرة من مهمة معينة. وبالتالي، تسمح تشفير الجملة المتخصصة بمعرف المعرف باعتباره مهمة تشابه دلالية بسيطة تقوم على استرجاع الجيران القابل للتفسير. نحن نقوم بالتحقق من صحة متانة وإمدادات الإطار النقدي مع مثل هذا الاستدلال القائم على التشابه على مجموعات تقييم الهوية القياسية: يحقق LMS Convfit-ed أداء معرف أحدث في المجال، مع مكاسب معينة في الأكثر تحديا، قليلة STUPS -SHOT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا