في هذه الورقة، نستكشف آثار المتغيرات اللغوية، وأحجام البيانات، وأنواع المهام التي تم ضبطها بشكل جيد في نماذج اللغة العربية المدربة مسبقا.للقيام بذلك، نبني ثلاث نماذج لغوية مدربة مسبقا عبر ثلاثة متغيرات باللغة العربية: العربية القياسية العربية (MSA)، العربية، واللوجية العربية، بالإضافة إلى نموذج لغوي رابع مدرب مسبقا على مزيج من الثلاثةوبعدنحن ندرس أيضا أهمية حجم بيانات التدريب المسبق من خلال بناء نماذج إضافية مدربة مسبقا على مجموعة Scaled-Down من متغير MSA.قارنا نماذجنا المختلفة لبعضنا البعض، بالإضافة إلى ثمانية نماذج متاحة للجمهور من خلال ضبطها على خمس مهام NLP تمتد 12 مجموعة بيانات.تشير نتائجنا إلى أن القرب المتغير من بيانات التدريب المسبق لبيانات التوصيل الدقيق أكثر أهمية من حجم بيانات التدريب المسبق.نستمسى هذه البصيرة في تحديد نموذج اختيار نظام محسن للمهام التي تمت دراستها.
In this paper, we explore the effects of language variants, data sizes, and fine-tuning task types in Arabic pre-trained language models. To do so, we build three pre-trained language models across three variants of Arabic: Modern Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a fourth language model which is pre-trained on a mix of the three. We also examine the importance of pre-training data size by building additional models that are pre-trained on a scaled-down set of the MSA variant. We compare our different models to each other, as well as to eight publicly available models by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest that the variant proximity of pre-training data to fine-tuning data is more important than the pre-training data size. We exploit this insight in defining an optimized system selection model for the studied tasks.
المراجع المستخدمة
https://aclanthology.org/
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة
نماذج اللغة المحددة مسبقا (PTLMS) تسفر عن الأداء الحديث في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك بناء الجملة والدلالات والعموم.في هذه الورقة، نركز على التعرف على أي مدى تلتقط PTLMS السمات الدلالية وقيمها، على سبيل المثال، الارتباط بين القي
تستفيد نماذج اللغة الكبيرة من التدريب بكمية كبيرة من النص غير المسبق، مما يمنحهم قدرات توليد بطلاقة ومتنوعة بشكل متزايد.ومع ذلك، فإن استخدام هذه النماذج لتوليد النص الذي يأخذ في الاعتبار السمات المستهدفة، مثل قطبية المعالم أو مواضيع محددة، لا يزال يم
تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب