تأخذ هذه الورقة خطوة أولى نحو مناهج تفكير حرجة لنماذج اللغة التراجعية العصبية. نقدم لجنة اصطناعية من الحجج الصالحة تخصيصها، وتوليد نصوص جدلية اصطناعية لتدريب CRPIPT: محول تفكير حرج مدرب مسبقا مسبقا على أساس GPT-2. يمكن ملاحظة تأثيرات تعليمية نقل كبيرة: مدربة على ثلاث مخططات أساسية بسيطة، يكمل CRIPT بدقة استنتاجات مختلفة من أنواع الحجج المختلفة والمزيد. تعميم CRIPT مع مخططات الوسيطة الأساسية بطريقة صحيحة. علاوة على ذلك، نحصل على نتائج متسقة واعدة لمعايير NLU. على وجه الخصوص، تتجاوز دقة Cript الصفرية في تشخيص الغراء أداء GPT-2 بنسبة 15 نقطة مئوية. تشير النتائج إلى أن التدريب المسترد الوسيط على النصوص التي تجسد قدرات التفكير الأساسي (مثل مغطاة عادة في كتب التفكير الناقد) قد تساعد نماذج اللغة للحصول على مجموعة واسعة من مهارات المنطق. النصوص المنحجية الاصطناعية المقدمة في هذه الورقة هي نقطة انطلاق واعدة لبناء مناهج التفكير النقدي لنماذج اللغة. "
This paper takes a first step towards a critical thinking curriculum for neural auto-regressive language models. We introduce a synthetic corpus of deductively valid arguments, and generate artificial argumentative texts to train CRiPT: a critical thinking intermediarily pre-trained transformer based on GPT-2. Significant transfer learning effects can be observed: Trained on three simple core schemes, CRiPT accurately completes conclusions of different, and more complex types of arguments, too. CRiPT generalizes the core argument schemes in a correct way. Moreover, we obtain consistent and promising results for NLU benchmarks. In particular, CRiPT's zero-shot accuracy on the GLUE diagnostics exceeds GPT-2's performance by 15 percentage points. The findings suggest that intermediary pre-training on texts that exemplify basic reasoning abilities (such as typically covered in critical thinking textbooks) might help language models to acquire a broad range of reasoning skills. The synthetic argumentative texts presented in this paper are a promising starting point for building such a critical thinking curriculum for language models.''
References used
https://aclanthology.org/
Saliency methods are widely used to interpret neural network predictions, but different variants of saliency methods often disagree even on the interpretations of the same prediction made by the same model. In these cases, how do we identify when are
Using data from English cloze tests, in which subjects also self-reported their gender, age, education, and race, we examine performance differences of pretrained language models across demographic groups, defined by these (protected) attributes. We
We introduce BERTweetFR, the first large-scale pre-trained language model for French tweets. Our model is initialised using a general-domain French language model CamemBERT which follows the base architecture of BERT. Experiments show that BERTweetFR
While pre-trained language models (PLMs) are the go-to solution to tackle many natural language processing problems, they are still very limited in their ability to capture and to use common-sense knowledge. In fact, even if information is available
The problem of answering questions using knowledge from pre-trained language models (LMs) and knowledge graphs (KGs) presents two challenges: given a QA context (question and answer choice), methods need to (i) identify relevant knowledge from large