تقدم هذه الورقة Estbert، وهو طراز بيرت محول محول محول محول كبير مسبقا للإستونية.قامت العمل الحديثة بتقييم نماذج بيرت متعددة اللغات على المهام الإستونية ووجدتها أن تتفوق على الأساس.ومع ذلك، بناء على الدراسات القائمة على اللغات الأخرى، من المتوقع أن تتحسن نموذج بيرت خاص باللغة من المتوقعين على تلك المتعددة اللغات.نحن نصف أول عملية محاكمة Estbert ثم تقديم نتائج النماذج المستندة إلى Estbert Finetuned لمهام NLP متعددة، بما في ذلك نقاط البيع والعلامات المورفولوجية، وتحليل التبعية، والتعرف على الكيان المسمى وتصنيف النص.تظهر نتائج التقييم أن النماذج القائمة على Estbert تفوقت نماذج بيرت متعددة اللغات متعددة اللغات على خمس مهام من أصل سبعة، وتوفير المزيد من الأدلة تجاه الرأي أن نماذج Berty-الخاصة باللغة التدريبية لا تزال مفيدة، حتى عندما تتوفر نماذج متعددة اللغات.
This paper presents EstBERT, a large pretrained transformer-based language-specific BERT model for Estonian. Recent work has evaluated multilingual BERT models on Estonian tasks and found them to outperform the baselines. Still, based on existing studies on other languages, a language-specific BERT model is expected to improve over the multilingual ones. We first describe the EstBERT pretraining process and then present the models' results based on the finetuned EstBERT for multiple NLP tasks, including POS and morphological tagging, dependency parsing, named entity recognition and text classification. The evaluation results show that the models based on EstBERT outperform multilingual BERT models on five tasks out of seven, providing further evidence towards a view that training language-specific BERT models are still useful, even when multilingual models are available.
المراجع المستخدمة
https://aclanthology.org/
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا
نحن تصف اثنين من أجهزة الكمبيوتر المحمولة Jupyter التي تشكل أساس تعيينتين في وحدة معالجة اللغة الطبيعية التمهيدية (NLP) التي تم تدريسها لطلاب البكالوريوس السنة الأخيرة في جامعة دبلن سيتي.تظهر أجهزة الكمبيوتر المحمولة الطلاب كيفية تدريب مصنف قطبية كيس
استخدام البيانات من اختبارات المرنة الإنجليزية، والتي أبلغت فيها المواضيع ذاتها الذاتي عن جنسهن وعمرها والتعليم والعرق، ندرس اختلافات الأداء في نماذج اللغة المحددة مسبقا عبر المجموعات الديموغرافية، والتي تحددها هذه الصفات (المحمية).نوضح ثغرات أداء وا
تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني