إيلاء اهتمام متعدد الأطراف مجردة، وهي مجموعة من العديد من آليات الاهتمام التي تحضر بشكل مستقل إلى أجزاء مختلفة من المدخلات، هي العنصر الرئيسي في المحول.ومع ذلك، فقد أظهر العمل الحديث أن نسبة كبيرة من الرؤوس في آلية الاهتمام المتعددة الرأس المحولات يمكن أن تكون بأمان بأمان دون إيذاء أداء النموذج بشكل كبير؛هذه التشذيب تؤدي إلى النماذج الأصغر بشكل ملحوظ وأسرع في الممارسة العملية.يقدم عملنا تقنية تشذيب رأس جديد نكون مصطلحنا تشذيب فرعي قابل للتطبيق.NTITIONIAL، تتعلم طريقة لدينا المتغيرات ذات الأهمية لكل رأس، ثم يفرض عقبة صلبة محددة من قبل المستخدم على عدد الرؤوس غير المشددة.يتم تعلم المتغيرات الأهمية من خلال نزول التدرج الاستوكاستكي.إجراء تجارب على الاستدلال اللغوي والترجمة الآلية؛نظهر أن تشذيب التقليم الفرعي المميز يؤدي بشكل أساسي أو أفضل من الأعمال السابقة مع توفير سيطرة دقيقة على مستوى Sparsity.1
Abstract Multi-head attention, a collection of several attention mechanisms that independently attend to different parts of the input, is the key ingredient in the Transformer. Recent work has shown, however, that a large proportion of the heads in a Transformer's multi-head attention mechanism can be safely pruned away without significantly harming the performance of the model; such pruning leads to models that are noticeably smaller and faster in practice. Our work introduces a new head pruning technique that we term differentiable subset pruning. ntuitively, our method learns per- head importance variables and then enforces a user-specified hard constraint on the number of unpruned heads. he importance variables are learned via stochastic gradient descent. e conduct experiments on natural language inference and machine translation; we show that differentiable subset pruning performs comparably or better than previous works while offering precise control of the sparsity level.1
المراجع المستخدمة
https://aclanthology.org/
يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا
شاركنا في جميع المسارات لمهمة الترجمة الآلية ل WMT 2021: وحدة المعالجة المركزية ذات CPU أحادية النواة، وحدة المعالجة المركزية متعددة النواة، وأجهزة GPU مع شروط الإنتاجية والكمولية.تجمع تقاريرنا العديد من استراتيجيات الكفاءة: تقطير المعرفة، وحدة فك تر
في مجال معالجة اللغة الطبيعية، من المعروف أن الكفارات فعالة في تحسين الأداء.تحلل هذه الورقة كيف تؤثر فرقة نماذج الترجمة الآلية العصبية (NMT) على تحسين الأداء من خلال تصميم مختلف الإعدادات التجريبية (I.E.، Intra-، Inter-Ertern-Erbergble، وغير غير التق
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1
هدفت الدراسة إلى تعرف مستوى الأداء الوظيفي لأعضاء الهيئات التدريسية في
الجامعات الأردنية الرسمية من وجهة نظر رؤساء الأقسام فيها. و قام الباحث بتطوير
استبانة الدراسة، ثم طبقت على عينة مكونة من (77) رئيس قسم أكاديمي تم اختيارهم
بالطريقة العشوائية ال