المفردات المدخلات والتمثيلات المستفادة أمر حاسم لأداء نماذج NLP العصبية. يؤدي استخدام نتائج المفردات الكاملة إلى نماذج أقل وتفسير الذاكرة، مع طبقة التضمين غالبا ما تشكل غالبية المعلمات النموذجية. من الشائع، من الشائع استخدام مفردات أصغر لخفض متطلبات الذاكرة وبناء المزيد من النماذج الأربعة. نقترح طريقة اختيار المفردات التي تعرض الكلمات كأعضاء في فريق يحاول زيادة أداء النموذج إلى الحد الأقصى. نحن نطبق مؤشرات الطاقة من نظرية الألعاب التعاونية، بما في ذلك فهرس قيمة Shemley و Banzhaf، والتي تقيس الأهمية النسبية لأعضاء الفريق الفردي في إنجاز مهمة مشتركة. نحسب تقريبا هذه المؤشرات لتحديد الكلمات الأكثر نفوذا. يفحص تقييم التجريبي الخاص بنا مهام متعددة الوزراء، بما في ذلك الجملة والتصنيف المستندات، والرد على السؤال والتتبع النصي. نقارن مع خطوط الأساسيات التي تختار الكلمات القائمة على ترددات التردد و TF-IDF والانحدار بموجب منتظم L1، وإظهار أن اختيار المفردات النظري للعبة هذه تفوق كل خط الأساس على مجموعة من المهام والعملات المختلفة.
The input vocabulary and the representations learned are crucial to the performance of neural NLP models. Using the full vocabulary results in less explainable and more memory intensive models, with the embedding layer often constituting the majority of model parameters. It is thus common to use a smaller vocabulary to lower memory requirements and construct more interpertable models. We propose a vocabulary selection method that views words as members of a team trying to maximize the model's performance. We apply power indices from cooperative game theory, including the Shapley value and Banzhaf index, that measure the relative importance of individual team members in accomplishing a joint task. We approximately compute these indices to identify the most influential words. Our empirical evaluation examines multiple NLP tasks, including sentence and document classification, question answering and textual entailment. We compare to baselines that select words based on frequency, TF-IDF and regression coefficients under L1 regularization, and show that this game-theoretic vocabulary selection outperforms all baseline on a range of different tasks and datasets.
المراجع المستخدمة
https://aclanthology.org/
نقترح مخطط تكييف المفردات المباشر لتوسيع نطاق القدرة اللغوية لنماذج الترجمة متعددة اللغات، مما يمهد الطريق نحو التعلم المستمر الفعال للترجمة الآلية متعددة اللغات.نهجنا مناسب لمجموعات البيانات واسعة النطاق، ينطبق على اللغات البعيدة مع البرامج النصية غ
ندرس مشكلة توليد نص موادي لتصنيف كوسيلة لفهم وتصحيح التصحيح. بالنظر إلى إدخال نصي ونموذج تصنيف، نهدف إلى تغيير النص الصغير لتغيير تنبؤ النموذج. تم تطبيق نهج الصندوق الأبيض بنجاح على مشاكل مماثلة في الرؤية حيث يمكن للمرء تحسين المدخلات المستمرة مباشرة
حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من
الهدف من التنبؤ بمفردات المخزون هو التنبؤ بمفردات متعلم كله بناء على عينة محدودة من كلمات الاستعلام.تقترب هذه الورقة عن المشكلة بدءا من نموذج نظرية استجابة البند 2-المعلمة (IRT)، مما يمنح كل كلمة في المفردات معلمة صعوبة والتمييز.يتم تقييم المعلمة الت
توفر الشبكات العصبية القائمة على المحولات أداء تصنيف جيد للغاية عبر مجموعة واسعة من المجالات، لكن لا تقدم تفسيرات توقعاتها.في حين أن العديد من طرق التفسير، بما في ذلك الشكل، فإن معالجة مشكلة تفسير نماذج التعلم العميق، لا تتكيف معها للعمل على الشبكات