يحقق المحولات مسبقا أداء ملحوظا عند التدريب وبيانات الاختبار من نفس التوزيع. ومع ذلك، في سيناريوهات العالم الحقيقي، غالبا ما يواجه النموذج حالات خارج التوزيع (OOD) التي يمكن أن تسبب مشاكل شديدة التحول الدلالي في وقت الاستدلال. لذلك، في الممارسة العملية، يجب على نموذج موثوق أن يحدد هذه الحالات، ثم رفضها أثناء الاستدلال أو نقلها إلى النماذج التي تتعامل مع توزيع آخر. في هذه الورقة، نقوم بتطوير طريقة اكتشاف OOD غير مزودة بها، حيث يتم استخدام البيانات الموجودة في التوزيع فقط في التدريب. نقترح أن يلزم المحولات بفقدان مقنعين، مما يحسن من إيصال التمثيلات، بحيث يمكن التمييز بين مثيلات OOD بشكل أفضل عن المعرف. يمكن بعد ذلك اكتشاف هذه الحالات OOD بدقة باستخدام مسافة Mahalanobis في الطبقة السابقة للاشمئزاز. نقوم بتجربة إعدادات شاملة وتحقيق أداء الكشف عن المسؤولية المثالية تقريبا، وتفوق خطوط الأساس بشكل كبير. نحن مزيد من التحقيق في المناولة وراء التحسن، مما يجد أن المزيد من التمثيلات المدمجة من خلال التعلم المتعاقل الذي يعتمد على الهامش يجلب التحسن. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
Pretrained Transformers achieve remarkable performance when training and test data are from the same distribution. However, in real-world scenarios, the model often faces out-of-distribution (OOD) instances that can cause severe semantic shift problems at inference time. Therefore, in practice, a reliable model should identify such instances, and then either reject them during inference or pass them over to models that handle another distribution. In this paper, we develop an unsupervised OOD detection method, in which only the in-distribution (ID) data are used in training. We propose to fine-tune the Transformers with a contrastive loss, which improves the compactness of representations, such that OOD instances can be better differentiated from ID ones. These OOD instances can then be accurately detected using the Mahalanobis distance in the model's penultimate layer. We experiment with comprehensive settings and achieve near-perfect OOD detection performance, outperforming baselines drastically. We further investigate the rationales behind the improvement, finding that more compact representations through margin-based contrastive learning bring the improvement. We release our code to the community for future research.
References used
https://aclanthology.org/
While neural networks are ubiquitous in state-of-the-art semantic parsers, it has been shown that most standard models suffer from dramatic performance losses when faced with compositionally out-of-distribution (OOD) data. Recently several methods ha
After a neural sequence model encounters an unexpected token, can its behavior be predicted? We show that RNN and transformer language models exhibit structured, consistent generalization in out-of-distribution contexts. We begin by introducing two i
We describe our system that ranked first in Hope Speech Detection (HSD) shared task and fourth in Offensive Language Identification (OLI) shared task, both in Tamil language. The goal of HSD and OLI is to identify if a code-mixed comment or post cont
Detecting out-of-domain (OOD) intents is crucial for the deployed task-oriented dialogue system. Previous unsupervised OOD detection methods only extract discriminative features of different in-domain intents while supervised counterparts can directl
Successful methods for unsupervised neural machine translation (UNMT) employ cross-lingual pretraining via self-supervision, often in the form of a masked language modeling or a sequence generation task, which requires the model to align the lexical-