ترغب بنشر مسار تعليمي؟ اضغط هنا

تشذيب مجموعة فرعية مختلفة من رؤساء المحولات

Differentiable Subset Pruning of Transformer Heads

57   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إيلاء اهتمام متعدد الأطراف مجردة، وهي مجموعة من العديد من آليات الاهتمام التي تحضر بشكل مستقل إلى أجزاء مختلفة من المدخلات، هي العنصر الرئيسي في المحول.ومع ذلك، فقد أظهر العمل الحديث أن نسبة كبيرة من الرؤوس في آلية الاهتمام المتعددة الرأس المحولات يمكن أن تكون بأمان بأمان دون إيذاء أداء النموذج بشكل كبير؛هذه التشذيب تؤدي إلى النماذج الأصغر بشكل ملحوظ وأسرع في الممارسة العملية.يقدم عملنا تقنية تشذيب رأس جديد نكون مصطلحنا تشذيب فرعي قابل للتطبيق.NTITIONIAL، تتعلم طريقة لدينا المتغيرات ذات الأهمية لكل رأس، ثم يفرض عقبة صلبة محددة من قبل المستخدم على عدد الرؤوس غير المشددة.يتم تعلم المتغيرات الأهمية من خلال نزول التدرج الاستوكاستكي.إجراء تجارب على الاستدلال اللغوي والترجمة الآلية؛نظهر أن تشذيب التقليم الفرعي المميز يؤدي بشكل أساسي أو أفضل من الأعمال السابقة مع توفير سيطرة دقيقة على مستوى Sparsity.1

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا لكبير، والانفجار النموذجي. لمعالجة هذه المشكلات الثلاثة، نقترح طريقة للتقسيم والتغلب عليها "والتي تعتمد على أهمية الخلايا العصبية أو المعلمات لنموذج الترجمة. في هذه الطريقة، نقوم أولا بإزالة النموذج ويحافظ على الخلايا العصبية أو المعلمات المهمة فقط، مما يجعلها مسؤولة عن كل من المجال العام والترجمة داخل المجال. ثم علينا مزيد من تدريب النموذج المعاني الذي يشرف عليه النموذج الكامل الأصلي مع تقطير المعرفة. أخيرا، نوسع النموذج إلى الحجم الأصلي وضبط المعلمات المضافة للترجمة داخل المجال. أجرينا تجارب على أزواج ومجالات مختلفة للغة والنتائج تظهر أن طريقتنا يمكن أن تحقق تحسينات كبيرة مقارنة بالعديد من خطوط الأساس القوية.
شاركنا في جميع المسارات لمهمة الترجمة الآلية ل WMT 2021: وحدة المعالجة المركزية ذات CPU أحادية النواة، وحدة المعالجة المركزية متعددة النواة، وأجهزة GPU مع شروط الإنتاجية والكمولية.تجمع تقاريرنا العديد من استراتيجيات الكفاءة: تقطير المعرفة، وحدة فك تر ميز وحدة بسيطة متكررة بسيطة (SSRU) مع طبقتين أو طبقتين، بقلين من المعجمين، وتنسيقات عدودية أصغر، وتقليم.بالنسبة لمسار وحدة المعالجة المركزية، استخدمنا طرازات 8 بت كمية.بالنسبة لمسار GPU، جربنا أعداد صحيحة FP16 و 8 بت في عشرات الموانئ.بعض عمليات التقديمات لدينا تحسين الحجم عبر سجل سجل 4 بت وحذف قائمة مختصرة معجمية.لقد مددنا تشذيم أكبر أجزاء من الشبكة، مع التركيز على تشذيب المكونات ومستوى الحظر الذي يحسن في الواقع السرعة على عكس تقليم المعامل الحكيم.
في مجال معالجة اللغة الطبيعية، من المعروف أن الكفارات فعالة في تحسين الأداء.تحلل هذه الورقة كيف تؤثر فرقة نماذج الترجمة الآلية العصبية (NMT) على تحسين الأداء من خلال تصميم مختلف الإعدادات التجريبية (I.E.، Intra-، Inter-Ertern-Erbergble، وغير غير التق اعد).لفحص متعمق، نقوم بتحليل كل طريقة فرقة فيما يتعلق بالعديد من جوانب مثل نماذج الاهتمام المختلفة واستراتيجيات VOCAB.تظهر النتائج التجريبية أن الكوغرات لا يؤدي دائما إلى زيادة الأداء وتقديم النتائج السلبية الجديرة بالملاحظة.
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.
هدفت الدراسة إلى تعرف مستوى الأداء الوظيفي لأعضاء الهيئات التدريسية في الجامعات الأردنية الرسمية من وجهة نظر رؤساء الأقسام فيها. و قام الباحث بتطوير استبانة الدراسة، ثم طبقت على عينة مكونة من (77) رئيس قسم أكاديمي تم اختيارهم بالطريقة العشوائية ال بسيطة، و للإجابة عن أسئلة الدراسة تم حساب المتوسطات الحسابية، و الانحرافات المعيارية، و اختبار (ت)، و تحلـيل التباين الأحـادي، و اختبار شيفيه. و بينت نتائج الدراسة أن مستوى الأداء الوظيفي لأعضاء الهيئات التدريسية كانت مرتفعة، إذ بلغت (78.3) درجة من (5) درجات، و دلَّت النتائج على عدم وجود فروق ذات دلالة تعود للمتغيرات. و أوصى الباحث بأن تقوم الجامعات بتعزيز الأداء الوظيفي لأعضاء الهيئات التدريسية فيها، و أن تتعرف إلى حاجاتهم و رغباتهم لتحقيق الممكن منها و إشباعها، و أن توفر نظام حوافز تشجيعية، مادية و معنوية، لما لها من أثر إيجابي في المحافظة على مستوى الأداء الوظيفي المرتفع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا