أدت الحاجة إلى نشر النماذج المدربة مسبقا على نطاق واسع على أجهزة الحافة بموجب موارد حسابية محدودة إلى بحث كبير لضغط هذه النماذج الكبيرة. ومع ذلك، تم إيلاء اهتمام أقل لضغط النماذج الخاصة المهام. في هذا العمل، نحقق في أساليب مختلفة من التقليم غير منظم في نماذج ذات المهام الخاصة بمهام تحليل المعنويات المستندة إلى جانب جانب الجسيم. على وجه التحديد، نقوم بتحليل الاختلافات في ديناميات التعلم من النماذج ذات التذرية باستخدام تقنيات التقليم القياسية لتحقيق شبكات متفرقة عالية الأداء. نقوم بتطوير فرضية لإظهار فعالية التشذيب المحلي على التقليم العالمي بالنظر إلى نموذج سي إن إن بسيط. في وقت لاحق، نحن نستخدم الفرضية لإظهار فعالية النموذج الحديثة المعادلة مقارنة بالنموذج المفرط من أحدث المعلمات تحت إعدادتين، أول النظر في الأساس لنفس المهمة المستخدمة ل توليد الفرضية، أي استخراج الآراء والثاني النظر في مهمة مختلفة، أي تحليل المعرفات. كما نقدم المناقشة المتعلقة بتعميم الفرضية التقليم.
The need to deploy large-scale pre-trained models on edge devices under limited computational resources has led to substantial research to compress these large models. However, less attention has been given to compress the task-specific models. In this work, we investigate the different methods of unstructured pruning on task-specific models for Aspect-based Sentiment Analysis (ABSA) tasks. Specifically, we analyze differences in the learning dynamics of pruned models by using the standard pruning techniques to achieve high-performing sparse networks. We develop a hypothesis to demonstrate the effectiveness of local pruning over global pruning considering a simple CNN model. Later, we utilize the hypothesis to demonstrate the efficacy of the pruned state-of-the-art model compared to the over-parameterized state-of-the-art model under two settings, the first considering the baselines for the same task used for generating the hypothesis, i.e., aspect extraction and the second considering a different task, i.e., sentiment analysis. We also provide discussion related to the generalization of the pruning hypothesis.
المراجع المستخدمة
https://aclanthology.org/
في هذا العمل، نقوم بتصميم نموذج نهاية إلى نهاية لتوليد الشعر على أساس نماذج لغة الشبكة العصبية المتكررة مشروطة (RNN) تهدف إلى تعلم الميزات الأسلوبية (طول القصيدة والشعور والتقاليد والتقييم) من الأمثلة وحدها.نعرض أن هذا النموذج يتعلم بنجاح معنى "الطول
ينقل الناس نيتهم وموقفهم من خلال الأساليب اللغوية للنص الذي يكتبونه. في هذه الدراسة، نقوم بتحقيق كملات المعجم في المعجم عبر الأساليب طوال العدسين: الإدراك البشري وأهمية كلمة الجهاز، لأن الكلمات تختلف في قوة الإشارات الأسلوبية التي تقدمها. لجمع ملصق
أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم مئات الملايين من المعلم
بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معج
يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأث