تم حل معايير المنطق المنطقي إلى حد كبير عن طريق نماذج لغة ضبط دقيقة. الجانب السلبي هو أن الضبط الدقيق قد يتسبب في طرح نماذج إلى البيانات الخاصة بمهام المهام وبالتالي انسوا معرفتهم المكتسبة خلال التدريب المسبق. تعمل الأعمال الحديثة فقط على اقتراح تحديثات نموذجية خفيفة الوزن حيث قد تمتلك النماذج بالفعل معرفة مفيدة من الخبرة السابقة، لكن التحدي لا يزال في فهم الأجزاء وإلى أي مدى يجب أن يتم تنقيح النماذج بمهمة معينة. في هذه الورقة، نقوم بالتحقيق في نماذج تتعلم من مجموعات بيانات منطق المنطقية. نقيس تأثير ثلاث طرق تكييف مختلفة عن تعميم ودقة النماذج. تظهر تجاربنا مع نماذجين أن الضبط الدقيق يؤدي بشكل أفضل، من خلال تعلم كل من المحتوى والهيكل المهمة، ولكنه يعاني من التجمع المحدود والمحدود لإجابات جديدة. نلاحظ أن طرق التكيف البديلة مثل ضبط البادئة لها دقة قابلة للمقارنة، ولكن تعميم أفضل من الإجابات غير المرئية وهي أكثر قوة لانشقاقات الخصومة.
Commonsense reasoning benchmarks have been largely solved by fine-tuning language models. The downside is that fine-tuning may cause models to overfit to task-specific data and thereby forget their knowledge gained during pre-training. Recent works only propose lightweight model updates as models may already possess useful knowledge from past experience, but a challenge remains in understanding what parts and to what extent models should be refined for a given task. In this paper, we investigate what models learn from commonsense reasoning datasets. We measure the impact of three different adaptation methods on the generalization and accuracy of models. Our experiments with two models show that fine-tuning performs best, by learning both the content and the structure of the task, but suffers from overfitting and limited generalization to novel answers. We observe that alternative adaptation methods like prefix-tuning have comparable accuracy, but generalize better to unseen answers and are more robust to adversarial splits.
References used
https://aclanthology.org/
Recent developments in natural language generation (NLG) have bolstered arguments in favor of re-introducing explicit coding of discourse relations in the input to neural models. In the Methodius corpus, a meaning representation (MR) is hierarchicall
We present two novel unsupervised methods for eliminating toxicity in text. Our first method combines two recent ideas: (1) guidance of the generation process with small style-conditional language models and (2) use of paraphrasing models to perform
Recently, fine-tuning pre-trained language models (e.g., multilingual BERT) to downstream cross-lingual tasks has shown promising results. However, the fine-tuning process inevitably changes the parameters of the pre-trained model and weakens its cro
Pre-trained language models have achieved huge success on a wide range of NLP tasks. However, contextual representations from pre-trained models contain entangled semantic and syntactic information, and therefore cannot be directly used to derive use
Early exit mechanism aims to accelerate the inference speed of large-scale pre-trained language models. The essential idea is to exit early without passing through all the inference layers at the inference stage. To make accurate predictions for down