تم تعزيز تطوير النهج الآلي للمقبولة اللغوية بشكل كبير من خلال توافر كولا كولا الإنجليزية، والذي تم إدراجه أيضا في معيار الغراء المستخدم على نطاق واسع. ومع ذلك، فقد أعاق هذا النوع من الأبحاث للغات بخلاف اللغة الإنجليزية، وكذلك تحليل الأساليب عبر اللغات، من خلال عدم وجود موارد بحجم مماثل بلغات أخرى. لذلك قمنا بتطوير Eatacola Corpus، الذي يحتوي على ما يقرب من 10000 جمل بأحكام مقبولية، والتي تم إنشاؤها بعد النهج نفسه ونفس الخطوات مثل اللغة الإنجليزية. في هذه الورقة، نصف إنشاء Corpus Credion، ونحن نقدم محتواها، ونقدم التجارب الأولى على هذا المورد الجديد. نقارن تصنيف النطاق والخروج من النطاق، وإجراء تقييم محدد لتسع ظواهر لغوية. نقدم أيضا أول تجارب متبردة عبر اللغات، والتي تهدف إلى تقييم ما إذا كان يمكن أن تستفيد النهج القائمة متعددة اللغات القائمة على المحولات من استخدام الجمل بلغتين أثناء ضبط الرصيف.
The development of automated approaches to linguistic acceptability has been greatly fostered by the availability of the English CoLA corpus, which has also been included in the widely used GLUE benchmark. However, this kind of research for languages other than English, as well as the analysis of cross-lingual approaches, has been hindered by the lack of resources with a comparable size in other languages. We have therefore developed the ItaCoLA corpus, containing almost 10,000 sentences with acceptability judgments, which has been created following the same approach and the same steps as the English one. In this paper we describe the corpus creation, we detail its content, and we present the first experiments on this new resource. We compare in-domain and out-of-domain classification, and perform a specific evaluation of nine linguistic phenomena. We also present the first cross-lingual experiments, aimed at assessing whether multilingual transformer-based approaches can benefit from using sentences in two languages during fine-tuning.
المراجع المستخدمة
https://aclanthology.org/
التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية
تحديد القروض المعجمية، ونقل الكلمات بين اللغات، هي ممارسة أساسية لللغويات التاريخية وأداة حيوية في تحليل اتصال اللغة والأحداث الثقافية بشكل عام.نسعى لتحسين الأدوات للكشف التلقائي للقروض المعجمية، مع التركيز هنا على الكشف عن الكلمات المقترضة من نصوص ا
أظهرت الدراسات الحديثة أن النماذج المتبادلة المدربة مسبقا تحقق أداء مثير للإعجاب في المهام المتقاطعة المتبادلة. يستفيد هذا التحسن من تعلم كمية كبيرة من مونوللقي والموازيات. على الرغم من أنه من المعترف به عموما أن شركة فورانيا الموازية أمر بالغ الأهمي
نقترح إطارا جديدا لتدريب النماذج لتصنيف مقبولية الردود الناتجة عن نماذج توليد اللغة الطبيعية (NLG)، وتحسين تحويل الجملة الحالية والنهج القائمة على النماذج. يعتبر استجابة NLG مقبولة إذا كانت كل من صحيحة وتجميعها. نحن لا نستخدم أي مراجع بشرية مما يجعل
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل