في هذه الورقة، نحقق في مشكلة تعميم المجال (DG) للحصول على تحديد صياغة الإشراف (PI).نلاحظ أن أداء نماذج PI الحالية يتدهور بشكل كبير عند اختباره في مجال خارج التوزيع (OOD).نحن تخمين أنه ناجم عن التعلم الاختصار، أي هذه النماذج تميل إلى الاستفادة من الكلمات الإعلانية الفريدة لمجموعة بيانات أو مجال معين.لتخفيف هذه المشكلة وتعزيز قدرة DG، نقترح إطار PI بناء على النقل الأمثل (OT).تجبر طريقةنا على الشبكة لتعلم الميزات اللازمة لجميع الكلمات في الإدخال، مما يخفف من مشكلة التعلم الاختصار.تظهر النتائج التجريبية أن طريقتنا تعمل على تحسين قدرة DG على نماذج PI.
In this paper, we investigate the Domain Generalization (DG) problem for supervised Paraphrase Identification (PI). We observe that the performance of existing PI models deteriorates dramatically when tested in an out-of-distribution (OOD) domain. We conjecture that it is caused by shortcut learning, i.e., these models tend to utilize the cue words that are unique for a particular dataset or domain. To alleviate this issue and enhance the DG ability, we propose a PI framework based on Optimal Transport (OT). Our method forces the network to learn the necessary features for all the words in the input, which alleviates the shortcut learning problem. Experimental results show that our method improves the DG ability for the PI models.
المراجع المستخدمة
https://aclanthology.org/