ترغب بنشر مسار تعليمي؟ اضغط هنا

Subformer: استكشاف تقاسم الوزن لكفاءة المعلمات في محولات التوليد

Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers

319   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهرت المحولات أداء محسنة عند مقارنتها بالبنية السابقة لمعالجة التسلسل مثل RNNS.على الرغم من مكاسب أدائها الكبيرة، كما اقترح مؤخرا، فإن النموذج باهظ الثمن بشكل حسابي للتدريب ومع ميزانية معلمة عالية.في ضوء هذا، نستكشف أساليب تقاسم المعلمات في المحولات بتركيز محدد على النماذج الإدارية.نحن نقوم بإجراء تحليل لأساليب تقاسم / تخفيض المعلمات المختلفة وتطوير النموذج الفرعي.يجمع نموذجنا بين مشاركة المعلمات على غرار ساندويتش، مما يتغلب على مشاركة المعلمة الساذجة عبر الطبقات في نماذج توليدية، وتعامل التضمين الذاتي الذاتي (آمن).تشير التجارب على الترجمة الآلية، وإظهار التلخيص المبشور ونمذجة اللغة أن العنصر الفرعي يمكن أن يتفوق على المحول حتى عند استخدام المعلمات أقل بكثير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعالج ملء القالب عموما من قبل خط أنابيب لنظمين تحت إشراف منفصلين - واحدة لاستخراج الدوران وآخر للاعتراف بالقوالب / الحدث.نظرا لأن خطوط الأنابيب تنظر في الأحداث بمعزل، فيمكنها أن تعاني من انتشار الأخطاء.نقدم إطارا يعتمد على المحولات الإندانية الطرفية لهذه المهمة (I.E.، GTT).من الطبيعي طرز الاعتماد بين الكيانات داخل حدث واحد وعبر الأحداث المتعددة الموصوفة في وثيقة.توضح التجارب أن هذا الإطار يتفوق بشكل كبير على الأساليب القائمة على خط الأنابيب، وغيرها من خطوط الأساس شبه إلى النهائي التي لا تضع طراز بين التبعيات بين الحدث.نظهر كذلك أن إطار عملنا يحسن على وجه التحديد الأداء على المستندات التي تحتوي على أحداث متعددة.
في عقود تقاسم الإنتاج في مجال إنتاج النفط والغاز تسترد الشركة المستثمرة تكاليفها المتكبدة خلال مراحل الاستكشاف والتطوير والإنتاج عند اكتشاف الإنتاج التجاري, وذلك من خلال تخصيص قيمة نسبة محددة من إنتاج كل فترة مالية للشركة لاسترداد تكاليفها. وبسبب اخت لاف مفهوم معالجة التكاليف وطريقتة في ظل عقود تقاسم الإنتاج, فقد اختلفت السياسات المحاسبية المطبقة في معالجة التكاليف واستردادها في شركات إنتاج النفط والغاز المستثمرة في سورية. هدف البحث إلى بيان المعالجات المحاسبية المختلفة المتبعة في شركات إنتاج النفط والغاز عند استرداد التكاليف في عقود تقاسم الإنتاج وتحديد أثر ذلك في حجم التكاليف المرسملة ومبلغ الدخل, من خلال دراسة تطبيقية شملت المعالجات المحاسبية المطبقة في كل من شركتي إس أي بي سي للنفط (SIPC) الأجنبية المستثمرة في سورية وشركة سي إن بي سي للنفط (CNPC) الأجنبية المستثمرة في سورية, كعينة للدراسة, وقد تمت تسوية الأرقام المحاسبية الفعلية لشركة SIPC للنفط لتتوافق مع المعالجات المحاسبية الخاصة بشركة سي إن بي سي (CNPC). وبناء على ذلك تم التوصل إلى أن هناك فروقات كبيرة وهامة في مقدارالدخل وحجم التكاليف المرسملة نتيجة اختلاف طريقة معالجة التكاليف واستردادها يجب أخذها بالاعتبار, حيث يكون من الأفضل المعالجة المحاسبية للعائدات المخصصة لاسترداد التكاليف كإيرادات من الإنتاج وليس كاسترداد (إطفاء) للتكاليف الإجمالية المرسملة خلال الفترات السابقة
هناك دلالات شائعة مشتركة عبر النصوص والصور.بالنظر إلى الجملة في لغة مصدر، ما إذا كان يصور المشهد المرئي يساعد الترجمة في لغة مستهدفة؟تتطلب طرق ترجمة الآلات العصبية متعددة الوسائط المتعددة (MNMT) ثلاثة توائم من جملة ثنائية اللغة - صورة للتدريب وشرائط جملة المصدر - صورة للاستدلال.في هذه الورقة، نقترح عليلة، وهي طريقة ترجمة جاهزة عبر الخيال البصري.تخيل أولا تعلم توليد التمثيل المرئي من الجملة المصدر، ثم يستخدم كل من الجملة المصدر والتمثيل المتخيل "" لإنتاج ترجمة هادفة.على عكس الأساليب السابقة، فإنه يحتاج فقط إلى الجملة المصدر في وقت الاستدلال.توضح التجارب التي تخيل أن تخيل الفوائد من الخيال البصري وتتفوق بشكل كبير على خطوط خطوط الترجمة الآلية العصبية النصية فقط.يكشف المزيد من التحليل أن عملية الخيال في تخيل يساعد في ملء المعلومات المفقودة عند تنفيذ استراتيجية التدهور.
جذبت الكشف عن المشاعر من وظائف وسائل التواصل الاجتماعي اهتماما ملحوظا من مجتمع معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة.تختلف طرق الحصول على ملصقات ذهبية لتدريب واختبار أنظمة الكشف عن المشاعر التلقائية بشكل كبير من دراسة واحدة إلى أخرى، وتشكل م سألة موثوقية الملصقات الذهبية وتحصل على نتائج التصنيف.تستكشف هذه الدراسة بشكل منهجي عدة طرق للحصول على ملصقات ذهبية لنموذج EKMAN الخاص ببيانات Twitter وتأثير الاستراتيجية المختارة في نتائج التصنيف اليدوي.
حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخ دامها في نهج التعلم التعزيز يمكن أن تلعب دورا رئيسيا للأداء ولا يزال غير مستكشفة جزئيا. لهذا السبب، في هذه الورقة، نقترح اثنين من وظائف المكافأة لمهمة التلخيص الجماعي: الوظيفة الأولى، المشار إليها باسم RWB-Hinge، يختار ديناميكيا العينات لتحديث التدرج. الوظيفة الثانية، الملقب بالمخاطر، يرفع مجموعة صغيرة من المرشحين القويين لإبلاغ المكافأة. في التجارب، نجري النهج المقترح من خلال ضبط النموذج المدرب مسبقا من NLL أكثر من تسع مجموعات بيانات ملخصة من الحجم والطبيعة المتنوعة. تظهر النتائج التجريبية تحسنا ثابتا على خطوط خطوط الأساسيات المحدودة السلبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا