المفردات المدخلات والتمثيلات المستفادة أمر حاسم لأداء نماذج NLP العصبية. يؤدي استخدام نتائج المفردات الكاملة إلى نماذج أقل وتفسير الذاكرة، مع طبقة التضمين غالبا ما تشكل غالبية المعلمات النموذجية. من الشائع، من الشائع استخدام مفردات أصغر لخفض متطلبات الذاكرة وبناء المزيد من النماذج الأربعة. نقترح طريقة اختيار المفردات التي تعرض الكلمات كأعضاء في فريق يحاول زيادة أداء النموذج إلى الحد الأقصى. نحن نطبق مؤشرات الطاقة من نظرية الألعاب التعاونية، بما في ذلك فهرس قيمة Shemley و Banzhaf، والتي تقيس الأهمية النسبية لأعضاء الفريق الفردي في إنجاز مهمة مشتركة. نحسب تقريبا هذه المؤشرات لتحديد الكلمات الأكثر نفوذا. يفحص تقييم التجريبي الخاص بنا مهام متعددة الوزراء، بما في ذلك الجملة والتصنيف المستندات، والرد على السؤال والتتبع النصي. نقارن مع خطوط الأساسيات التي تختار الكلمات القائمة على ترددات التردد و TF-IDF والانحدار بموجب منتظم L1، وإظهار أن اختيار المفردات النظري للعبة هذه تفوق كل خط الأساس على مجموعة من المهام والعملات المختلفة.
The input vocabulary and the representations learned are crucial to the performance of neural NLP models. Using the full vocabulary results in less explainable and more memory intensive models, with the embedding layer often constituting the majority of model parameters. It is thus common to use a smaller vocabulary to lower memory requirements and construct more interpertable models. We propose a vocabulary selection method that views words as members of a team trying to maximize the model's performance. We apply power indices from cooperative game theory, including the Shapley value and Banzhaf index, that measure the relative importance of individual team members in accomplishing a joint task. We approximately compute these indices to identify the most influential words. Our empirical evaluation examines multiple NLP tasks, including sentence and document classification, question answering and textual entailment. We compare to baselines that select words based on frequency, TF-IDF and regression coefficients under L1 regularization, and show that this game-theoretic vocabulary selection outperforms all baseline on a range of different tasks and datasets.
References used
https://aclanthology.org/
We propose a straightforward vocabulary adaptation scheme to extend the language capacity of multilingual machine translation models, paving the way towards efficient continual learning for multilingual machine translation. Our approach is suitable f
We study the problem of generating counterfactual text for a classifier as a means for understanding and debugging classification. Given a textual input and a classification model, we aim to minimally alter the text to change the model's prediction.
Transformers that are pre-trained on multilingual corpora, such as, mBERT and XLM-RoBERTa, have achieved impressive cross-lingual transfer capabilities. In the zero-shot transfer setting, only English training data is used, and the fine-tuned model i
The aim of vocabulary inventory prediction is to predict a learner's whole vocabulary based on a limited sample of query words. This paper approaches the problem starting from the 2-parameter Item Response Theory (IRT) model, giving each word in the
Transformer-based neural networks offer very good classification performance across a wide range of domains, but do not provide explanations of their predictions. While several explanation methods, including SHAP, address the problem of interpreting