تظهر نماذج التعلم العميق تفضيلات للتركيب الإحصائي بشأن التفكير المنطقي.قد يتم حفظ الارتباطات الزائفة عند وجود تحيز إحصائي في بيانات التدريب، مما يحد بشدة من أداء النموذج بشكل خاص في سيناريوهات البيانات الصغيرة.في هذا العمل، نقدم إطار تدريب عدائي مضاد للأرض (القط) لمعالجة المشكلة من منظور السببية.خاصة، بالنسبة لعينة محددة، تنشئ القط أولا تمثيل مضاد من خلال الاستيفاء الفضائي الكامن بطريقة مخفية، ثم يؤدي ذلك إلى تقليل المخاطر المضادة (CRM) على كل زوج مضاد للأصلية لضبط وزن الخسارة العينة بشكل حيوي، مما يشجع النموذجلاستكشاف التأثير السببي الحقيقي.توضح تجارب واسعة أن القط يحقق تحسين أداء كبير على سوتا عبر المهام المختلفة المصب، بما في ذلك تصنيف الجملة، والاستدلال باللغة الطبيعية والرد على السؤال.
Deep learning models exhibit a preference for statistical fitting over logical reasoning. Spurious correlations might be memorized when there exists statistical bias in training data, which severely limits the model performance especially in small data scenarios. In this work, we introduce Counterfactual Adversarial Training framework (CAT) to tackle the problem from a causality perspective. Particularly, for a specific sample, CAT first generates a counterfactual representation through latent space interpolation in an adversarial manner, and then performs Counterfactual Risk Minimization (CRM) on each original-counterfactual pair to adjust sample-wise loss weight dynamically, which encourages the model to explore the true causal effect. Extensive experiments demonstrate that CAT achieves substantial performance improvement over SOTA across different downstream tasks, including sentence classification, natural language inference and question answering.
المراجع المستخدمة
https://aclanthology.org/
تعد التصنيفات موارد قيمة للعديد من التطبيقات، ولكن التغطية المحدودة بسبب عملية العمالة اليدوية باهظة الثمن تعوق إمكانية تطبيقها العام. محاولة Works السابقة لتوسيع تصنيفات الأدتصات الموجودة تلقائيا لتحسين تغطيتها من خلال تضمين التعلم بمشاركة مفهوم في
توليد الاستجابات الإعلامية والمناسبة صعبة ولكنها مهمة لبناء أنظمة الحوار يشبه الإنسان. على الرغم من أن نماذج المحادثة المختلفة المعرفة قد اقترحت، إلا أن هذه النماذج لها قيود في الاستفادة من المعرفة التي تحدث بشكل غير منتظم في بيانات التدريب، ناهيك عن
حققت النماذج التراجعية التلقائية واسعة النطاق نجاحا كبيرا في توليد استجابة الحوار، بمساعدة طبقات المحولات. ومع ذلك، فإن هذه النماذج لا تتعلم مساحة كامنة تمثيلية لتوزيع الجملة، مما يجعل من الصعب التحكم في الجيل. لقد حاولت الأعمال الحديثة على تعلم تمثي
تهدف توليد الصياغة الموجهة إلى Exemplar (EGPG) إلى توليد جملة مستهدفة تتوافق مع أسلوب Exemplar المحدد أثناء توسيع نطاق معلومات المحتوى من الجملة المصدر. في هذه الورقة، نقترح طريقة جديدة بهدف تعلم تمثيل أفضل للنمط والمحتوى. تحفز هذه الطريقة بشكل أساسي
أظهرت التقدم المحرز الأخير في نماذج اللغة المستندة إلى المحولات الاحترام نجاحا كبيرا في تعلم التمثيل السياقي للنص.ومع ذلك، نظرا لتعقيد الاهتمام من الدرجة الثانية، يمكن لمعظم نماذج المحولات مسبقا التعامل مع النص القصير نسبيا.لا يزال يمثل تحديا عندما ي