ترغب بنشر مسار تعليمي؟ اضغط هنا

إستبيرت: بيرت محددة باللغة المحددة للإستونية

EstBERT: A Pretrained Language-Specific BERT for Estonian

88   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة Estbert، وهو طراز بيرت محول محول محول محول كبير مسبقا للإستونية.قامت العمل الحديثة بتقييم نماذج بيرت متعددة اللغات على المهام الإستونية ووجدتها أن تتفوق على الأساس.ومع ذلك، بناء على الدراسات القائمة على اللغات الأخرى، من المتوقع أن تتحسن نموذج بيرت خاص باللغة من المتوقعين على تلك المتعددة اللغات.نحن نصف أول عملية محاكمة Estbert ثم تقديم نتائج النماذج المستندة إلى Estbert Finetuned لمهام NLP متعددة، بما في ذلك نقاط البيع والعلامات المورفولوجية، وتحليل التبعية، والتعرف على الكيان المسمى وتصنيف النص.تظهر نتائج التقييم أن النماذج القائمة على Estbert تفوقت نماذج بيرت متعددة اللغات متعددة اللغات على خمس مهام من أصل سبعة، وتوفير المزيد من الأدلة تجاه الرأي أن نماذج Berty-الخاصة باللغة التدريبية لا تزال مفيدة، حتى عندما تتوفر نماذج متعددة اللغات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.
نحن تصف اثنين من أجهزة الكمبيوتر المحمولة Jupyter التي تشكل أساس تعيينتين في وحدة معالجة اللغة الطبيعية التمهيدية (NLP) التي تم تدريسها لطلاب البكالوريوس السنة الأخيرة في جامعة دبلن سيتي.تظهر أجهزة الكمبيوتر المحمولة الطلاب كيفية تدريب مصنف قطبية كيس من الكلمات باستخدام بايس ساذجة متعددة الأطراف، وكيفية ضبط مصنف القطبية باستخدام بيرت.يأخذ الطلاب الرمز كنقطة انطلاق تجربتهم الخاصة.
استخدام البيانات من اختبارات المرنة الإنجليزية، والتي أبلغت فيها المواضيع ذاتها الذاتي عن جنسهن وعمرها والتعليم والعرق، ندرس اختلافات الأداء في نماذج اللغة المحددة مسبقا عبر المجموعات الديموغرافية، والتي تحددها هذه الصفات (المحمية).نوضح ثغرات أداء وا سعة عبر الفئات الديموغرافية وإظهار أن نماذج اللغة المسبقة مسبقا تكافح المتحدثين ذكور الشباب غير الأبيض؛على سبيل المثال، لا تعلم نماذج اللغة المحددة مسبقا تعلم التحيزات الاجتماعية (الجمعيات النمطية) - تعلم النماذج اللغوية المحددة أيضا التحيزات الاجتماعية، وتعلم التحدث أكثر شيئين أكثر من مثل الآخرين.ومع ذلك، نوضح أنه، باستثناء نماذج بيرت، تخفض نماذج اللغة الأكبر المحددة مسبقا بعض فجوات الأداء بين الأغلبية والأقليات.
تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة مسبقا، 4 لغات، و 7 مهام قيد الخطاب، والعثور على بارت ليكون بشكل عام أفضل نموذج في التقاط الخطاب - - ولكن فقط في تشفيرها، مع بيرت أداء بشكل مفاجئ نموذج الأساس.عبر النماذج المختلفة، هناك اختلافات كبيرة في أفضل طبقات في التقاط معلومات خطاب، والتفاوتات الكبيرة بين النماذج.
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني كبير لتوليد مجموعات بيانات مناسبة من الحجم الكافي.في هذه الورقة، نظير على هذه الورقة، نظرا لأن PLMS يمكن أن يتم الاستفادة منها للحصول على مدينات جملة عالية الجودة دون الحاجة إلى البيانات المسمى أو التصميم أو التعديلات على الهدف المحدد: نحن نستخدم القدرات الاستهادة للمقطوعات الكبيرة والأداء عالية الأداء لتوليد مجموعات بيانات كاملةأزواج النص المسمى من نقطة الصفر، والتي نستخدمها بعد ذلك للحصول على نماذج أصغر بكثير وأكثر كفاءة.يتفوق نهجنا غير المعدل بالكامل بشكل كامل

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا