يعد تحسين تعميم النموذج حول البيانات المحتفظ بها أحد الأهداف الأساسية في التفكير المعني بالمعنى. لقد أظهر العمل الحديث أن النماذج المدربة على مجموعة البيانات مع الإشارات السطحية تميل إلى أداء جيد في الاختبار السهل مع الإشارات السطحية ولكنها تؤدي بشكل سيء على مجموعة الاختبار الثابت دون إشارات سطحية. لجأت النهج السابقة إلى الأساليب اليدوية لتشجيع النماذج غير المبالفة للعظة السطحية. في حين أن بعض الأساليب قد تحسن الأداء على الحالات الصعبة، فإنها تؤدي أيضا إلى أدائها المتدهورة بشأن التعرضات السهلة. هنا، نقترح أن تتعلم صراحة نموذجا جيدا على كل من مجموعة الاختبار السهلة مع الإشارات السطحية ومجموعة الاختبار الثابت دون إشارات سطحية. باستخدام هدف التعلم التلوي، نتعلم مثل هذا النموذج الذي يحسن الأداء على كل من مجموعة الاختبار السهلة ومجموعة الاختبار الثابت. من خلال تقييم نماذجنا عند اختيار البدائل المعقولة (COPA) وشرح المنطقي، نوضح أن أسلوبنا المقترح يؤدي إلى تحسين الأداء على كل من مجموعة الاختبارات السهلة ومجموعة الاختبار الصعب الذي نلاحظ عليه ما يصل إلى 16.5 نقطة مئوية من التحسن على أساس الأساس وبعد
Improving model generalization on held-out data is one of the core objectives in common- sense reasoning. Recent work has shown that models trained on the dataset with superficial cues tend to perform well on the easy test set with superficial cues but perform poorly on the hard test set without superficial cues. Previous approaches have resorted to manual methods of encouraging models not to overfit to superficial cues. While some of the methods have improved performance on hard instances, they also lead to degraded performance on easy in- stances. Here, we propose to explicitly learn a model that does well on both the easy test set with superficial cues and the hard test set without superficial cues. Using a meta-learning objective, we learn such a model that improves performance on both the easy test set and the hard test set. By evaluating our models on Choice of Plausible Alternatives (COPA) and Commonsense Explanation, we show that our proposed method leads to improved performance on both the easy test set and the hard test set upon which we observe up to 16.5 percentage points improvement over the baseline.
References used
https://aclanthology.org/
Paraphrase generation is a longstanding NLP task that has diverse applications on downstream NLP tasks. However, the effectiveness of existing efforts predominantly relies on large amounts of golden labeled data. Though unsupervised endeavors have be
Existing supervised models for text clustering find it difficult to directly optimize for clustering results. This is because clustering is a discrete process and it is difficult to estimate meaningful gradient of any discrete function that can drive
For each goal-oriented dialog task of interest, large amounts of data need to be collected for end-to-end learning of a neural dialog system. Collecting that data is a costly and time-consuming process. Instead, we show that we can use only a small a
We present a scaffolded discovery learning approach to introducing concepts in a Natural Language Processing course aimed at computer science students at liberal arts institutions. We describe some of the objectives of this approach, as well as prese
Vector representations have become a central element in semantic language modelling, leading to mathematical overlaps with many fields including quantum theory. Compositionality is a core goal for such representations: given representations for wet'