في حين أن الشبكات العصبية تنتج أداء حديثة في العديد من مهام NLP، إلا أنها تعتمد بشكل عام على المعلومات المعدنية، والتي تنقل بشكل سيئ بين المجالات. اقترحت الأعمال السابقة Delexicalization كشكل من أشكال تقطير المعرفة للحد من الاعتماد على القطع الأثرية المعجمية. ومع ذلك، فإن القضية غير المحتملة النقدية التي لا تزال تظل مقدار delexicalization للتطبيق: يساعد القليل على تقليل التجاوز، ولكن يتجاهل الكثير من المعلومات المفيدة. نقترح التعلم الجماعي، ونهج تقطير المعرفة والنموذجية للتحقق من الحقائق التي تتمتع بها نماذج الطلاب المتعددة إمكانية الوصول إلى وجهات نظر مختلفة من البيانات، ولكن يتم تشجيعها على التعلم من بعضها البعض من خلال خسائر الاتساق الزوجية. في العديد من التجارب عبر المجالات بين مجموعات بيانات التحقق من الحمى و FNC، نوضح أن نهجنا يتعلم أفضل استراتيجية Delexicalization لعملية البيانات التدريبية المعطاة، وتتفوق على المصنفين الحديثة الذين يعتمدون على البيانات الأصلية.
While neural networks produce state-of-the- art performance in several NLP tasks, they generally depend heavily on lexicalized information, which transfer poorly between domains. Previous works have proposed delexicalization as a form of knowledge distillation to reduce the dependency on such lexical artifacts. However, a critical unsolved issue that remains is how much delexicalization to apply: a little helps reduce overfitting, but too much discards useful information. We propose Group Learning, a knowledge and model distillation approach for fact verification in which multiple student models have access to different delexicalized views of the data, but are encouraged to learn from each other through pair-wise consistency losses. In several cross-domain experiments between the FEVER and FNC fact verification datasets, we show that our approach learns the best delexicalization strategy for the given training dataset, and outperforms state-of-the-art classifiers that rely on the original data.
المراجع المستخدمة
https://aclanthology.org/
تم إثبات المشفرات المستندة إلى المحولات المسبدة مسبقا مثل بيرت لتحقيق الأداء الحديث في العديد من مهام NLP العديدة. على الرغم من نجاحهم، فإن ترميز نمط بيرت كبير الحجم ولديها زمن بيانات عالية أثناء الاستدلال (خاصة في آلات وحدة المعالجة المركزية) مما يج
تجادل الدراسات الحديثة بأن تقطير المعرفة يعد إلى ترجمة الكلام (ST) باستخدام النماذج الطرفية إلى النهاية.في هذا العمل، يمكننا التحقيق في تأثير تقطير المعرفة مع SC CASCADE باستخدام نماذج الترجمة التلقائية للكلام (ASR) ونماذج الترجمة الآلية (MT).نحن نوف
على الرغم من أن نماذج التدريب المسبق قد حققت نجاحا كبيرا في توليد الحوار، إلا أن أدائها ينخفض بشكل كبير عندما يحتوي المدخلات على كيان لا يظهر في مجموعات بيانات ما قبل التدريب والضبط (كيان غير مرئي). لمعالجة هذه المشكلة، تستفيد الأساليب الحالية لقاع
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة
في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثل