غالبا ما تعتمد تحسين التحسينات الأخيرة في الجودة التنبؤية لأنظمة معالجة اللغة الطبيعية على زيادة كبيرة في عدد المعلمات النموذجية. وقد أدى ذلك إلى محاولات مختلفة لضغط هذه النماذج، لكن الطرق الحالية لم تعتبر الاختلافات في القوة التنبؤية للمكونات النموذجية المختلفة أو في تعميم النماذج المضغوطة. لفهم العلاقة بين ضغط النموذج وتعميم خارج التوزيع، نحدد مهمة ضغط نماذج تمثيل اللغة بحيث تؤدي الأفضل في إعداد تكيف المجال. نختار معالجة هذه المشكلة من منظور سببي، مما يحاول تقدير متوسط تأثير العلاج (أكل) من مكون نموذجي، مثل طبقة واحدة، في تنبؤات النموذج. يولد مخطط ضغط النموذج الموجه المقترح الخاص بنا (AMOC)، العديد من المرشحين النموذجيين، يختلف عن طريق المكونات النموذجية التي تمت إزالتها. ثم، نقوم بتحديد أفضل المرشح من خلال نموذج الانحدار الشديد الذي يستخدم أكلت للتنبؤ بالأداء المتوقع على المجال المستهدف. تفوق AMOC على خطوط أساسية قوية على العشرات من أزواج المجال عبر ثلاثة مهام تمييز نصية وتسلسل
Abstract Recent improvements in the predictive quality of natural language processing systems are often dependent on a substantial increase in the number of model parameters. This has led to various attempts of compressing such models, but existing methods have not considered the differences in the predictive power of various model components or in the generalizability of the compressed models. To understand the connection between model compression and out-of-distribution generalization, we define the task of compressing language representation models such that they perform best in a domain adaptation setting. We choose to address this problem from a causal perspective, attempting to estimate the average treatment effect (ATE) of a model component, such as a single layer, on the model's predictions. Our proposed ATE-guided Model Compression scheme (AMoC), generates many model candidates, differing by the model components that were removed. Then, we select the best candidate through a stepwise regression model that utilizes the ATE to predict the expected performance on the target domain. AMoC outperforms strong baselines on dozens of domain pairs across three text classification and sequence tagging tasks.1
المراجع المستخدمة
https://aclanthology.org/
يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا
نحن ندرس مشكلة تكيف المجال في الترجمة الآلية العصبية (NMT) عند مشاركة البيانات الخاصة بالمجال بسبب سرية أو مشكلات حقوق النشر.كخطوة أولى، نقترح بيانات الشظية في أزواج العبارة واستخدام عينة عشوائية لحن نموذج NMT عام بدلا من الجمل الكاملة.على الرغم من ف
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا
تحتاج أنظمة الإنتاج NMT عادة إلى خدمة مجالات المتخصصة التي لا تغطيها كوربيا كبيرة ومتاحة بسهولة بشكل مناسب.ونتيجة لذلك، غالبا ما يكون الممارسون نماذج غرضا عاما نماذج عامة على كل من المجالات التي يلبيها منظمةها.ومع ذلك، يمكن أن يصبح عدد المجالات كبيرا