في هذا العمل، نستكشف ضبط موجه، "آلية بسيطة ولكنها فعالة لتعلم المطالبات الناعمة" لحالة نماذج اللغة المجمدة لتنفيذ مهام المصب المحددة. على عكس مطالبات النص المنفصلة المستخدمة من قبل GPT-3، يتم تعلم المطالبات الناعمة من خلال إعادة الاتصال ويمكن ضبطها لدمج الإشارات من أي عدد من الأمثلة المسمى. يتفوق نهجنا المستفاد من طرفي تنضم إلى التعلم القليل من GPT-3 لهامش كبير. بشكل ملحوظ، من خلال ablations على حجم النموذج باستخدام T5، نظهر أن الضبط الفوري يصبح أكثر تنافسية على نطاق الحجم: نظرا لأن النماذج تتجاوز مليارات المعلمات، فإن طريقتنا تغلق الفجوة "وتطابق الأداء القوي لضبط النموذج (حيث جميع الأوزان النموذجية ضبطها). هذه النتيجة ذات صلة خاصة لأن النماذج الكبيرة مكلفة للمشاركة والخدمة والقدرة على إعادة استخدام نموذج واحد مجمد لمهام متعددة المصب يمكن أن تخفف من هذا العبء. يمكن اعتبار طريقةنا بمثابة تبسيط لضبط البادئة المقترح مؤخرا "لى ولديانغ (2021) ونوفر مقارنة بهذه الطريقة وغيرها من الأساليب المماثلة. أخيرا، نظهر أن تكييف نموذج مجمد مع مطالبات ناعمة يمنح الفوائد في متانة نقل المجال وتمكين الكفاءة الفعالة من الفئة الفعالة. "نحن ندرك رمز نقاط التفتيش والنموذج لإعادة إنتاج تجاربنا.
In this work, we explore prompt tuning,'' a simple yet effective mechanism for learning soft prompts'' to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned through backpropagation and can be tuned to incorporate signals from any number of labeled examples. Our end-to-end learned approach outperforms GPT-3's few-shot learning by a large margin. More remarkably, through ablations on model size using T5, we show that prompt tuning becomes more competitive with scale: as models exceed billions of parameters, our method closes the gap'' and matches the strong performance of model tuning (where all model weights are tuned). This finding is especially relevant because large models are costly to share and serve and the ability to reuse one frozen model for multiple downstream tasks can ease this burden. Our method can be seen as a simplification of the recently proposed prefix tuning'' of Li and Liang (2021) and we provide a comparison to this and other similar approaches. Finally, we show that conditioning a frozen model with soft prompts confers benefits in robustness to domain transfer and enables efficient prompt ensembling.'' We release code and model checkpoints to reproduce our experiments.
المراجع المستخدمة
https://aclanthology.org/
مجردة معظم مجموعات مهام NLP والأصناف اللغوية تفتقر إلى أمثلة في المجال للتدريب الخاضع للإشراف بسبب قلة البيانات المشروحة. كيف يمكن النماذج العصبية أن تجعل تعميمات فعالة للعينة من مجموعات لغات المهام مع البيانات المتاحة للموارد المنخفضة؟ في هذا العمل،
اقترحت الدراسات الحديثة طرق مختلفة لتحسين تمثيلات الكلمات متعددة اللغات في الإعدادات السياقية بما في ذلك التقنيات التي تتماشى بين المساحات المصدر والهدف المستهدف.بالنسبة للمشروعات السياقية، تصبح المحاذاة أكثر تعقيدا كما نستفيد إلى السياق بالإضافة إلى
هدف البحث إلى تعرف درجة مشاركة المعلمة المتعاونة في مراحل التدريب
الميداني الثلاثة " التمهيد, المشاهدة, المشاركة", من وجهة نظر الطالبات
المعلمات تخصص رياض الأطفال في كلية التربية بجامعة البعث.
تصبح التلخصات متعددة الوسائط ذات أهمية متزايدة لأنها هي أساس الإجابة على السؤال والبحث على شبكة الإنترنت والعديد من المهام الأخرى المصب الأخرى.ومع ذلك، فإن موادها التعليمية تفتقر إلى منظمة شاملة من خلال دمج الموارد من الطرائق المختلفة، مما يتخلف عن ا
مسألة المسار الأقصر لجميع العقد في البيان هي , بلا شك , واحدة من أكثر المسائل الأساسية في خوارزميات نظرية البيان . نقدم في هذا البحث خوارزمية بسيطة و فعالة من أجل مسألة المسارات الأقصر في بيان موجه ( أو غير موجه ) . في هذه المسألة نقوم بإيجاد المسار