يتم تطبيق آلية الاهتمام متعددة الأطباق متعددة الأطباق على نطاق واسع في نماذج اللغة العصبية الحديثة. وقد لوحظ انتباه التكرار بين رؤوس الاهتمام لكن لم يتم دراسته بعمق في الأدب. باستخدام نموذج BERT-BASE كمثال، توفر هذه الورقة دراسة شاملة حول التكرار الاهتمام المفيدة لتفسير النموذج والضغط النموذجي. نحن نحلل التكرار الاهتمام مع خمسة WS وكيف. (ماذا) نحدد وتركيز الدراسة على مصفوفات التكرار الناتجة عن نموذج Bert-Base Base المدرب مسبقا ومضبوطة من أجل مجموعات بيانات الغراء. (كيف نستخدم كل من وظائف المسافات المستندة إلى كل من الوظائف المستندة إلى العملة على الإطلاق لقياس التكرار. (حيث) لوحظ أنماط التكرار واضحة ومماثلة (بنية نظام المجموعة) بين رؤساء الاهتمام. (متى) أنماط التكرار متشابهة في كل من مراحل التدريب المسبق والضبط بشكل جيد. (من) نكتشف أن أنماط التكرار هي المهام الملحد. أنماط التكرار مماثلة موجودة حتى للتسلسلات الرمزية التي تم إنشاؤها عشوائيا. (لماذا ") نحن أيضا تقييم التأثيرات في نسب التسرب قبل التدريب على التكرار الاهتمام. استنادا إلى أنماط تكرار الاهتمام المستقل بالمرحلة المستقلة ومهمة التكرار، نقترح طريقة تشذيب صفرية غير مريحة كدراسة حالة. تجارب حول مهام الغراء التي تعمل بالضبط تحقق من فعاليتها. تحليلات شاملة حول التكرار الاهتمام جعل الفهم النموذجي ونموذج صفر لقطة تشذيب الواعدة.
Multi-layer multi-head self-attention mechanism is widely applied in modern neural language models. Attention redundancy has been observed among attention heads but has not been deeply studied in the literature. Using BERT-base model as an example, this paper provides a comprehensive study on attention redundancy which is helpful for model interpretation and model compression. We analyze the attention redundancy with Five-Ws and How. (What) We define and focus the study on redundancy matrices generated from pre-trained and fine-tuned BERT-base model for GLUE datasets. (How) We use both token-based and sentence-based distance functions to measure the redundancy. (Where) Clear and similar redundancy patterns (cluster structure) are observed among attention heads. (When) Redundancy patterns are similar in both pre-training and fine-tuning phases. (Who) We discover that redundancy patterns are task-agnostic. Similar redundancy patterns even exist for randomly generated token sequences. (Why'') We also evaluate influences of the pre-training dropout ratios on attention redundancy. Based on the phase-independent and task-agnostic attention redundancy patterns, we propose a simple zero-shot pruning method as a case study. Experiments on fine-tuning GLUE tasks verify its effectiveness. The comprehensive analyses on attention redundancy make model understanding and zero-shot model pruning promising.
المراجع المستخدمة
https://aclanthology.org/
نقدم سلسلة من مهام البرمجة، قابلة للتكيف مع مجموعة من مستويات الخبرة من المرحلة الجامعية المتقدمة إلى الدكتوراه، لتعليم الطلاب تصميم وتنفيذ أنظمة NLP الحديثة. يتم بناء هذه المهام من الألف إلى الياء والتأكيد على فهم المكدس الكامل للنماذج التعليمية الآ
تجزئة الكلمات، مشكلة إيجاد حدود الكلمات في الكلام، تهم مجموعة من المهام.اقترحت الأوراق السابقة أن نماذج تسلسل إلى تسلسل تدربت على مهام مثل ترجمة الكلام أو التعرف على الكلام، ويمكن استخدام الاهتمام لتحديد الكلمات والجزء.ومع ذلك، نوضح ذلك حتى على بيانا
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا
نقدم طريقة بسيطة لتوسيع المحولات إلى الأشجار من جانب المصدر.نحن نحدد عددا من الأقنعة التي تحد من اهتمام الذات بناء على العلاقات بين العقد الشجرة، ونحن نسمح لكل انتباه في أن يتعلم أي قناع أو أقنعة لاستخدامها.عند الترجمة من الإنجليزية إلى العديد من لغا
تكسب المكالمات هي من بين الموارد المهمة للمستثمرين والمحللين لتحديث أهداف الأسعار الخاصة بهم. الشركات عادة ما تنشر النصوص المقابلة قريبا بعد أحداث الأرباح. ومع ذلك، فإن النصوص الخام هي في كثير من الأحيان طويلة جدا وتفوت الهيكل المتماسك. لتعزيز الوضوح