اكتسب نمذجة اللغة الطبيعية الكثير من الاهتمام مؤخرا.يتم تحقيق النتائج الحالية الحالية من خلال التدريب الأول نموذج لغة كبير جدا ثم قم بضبطه على مهام متعددة.ومع ذلك، هناك القليل من العمل على أحدث نماذج لغة أكثر إحكاما للأجهزة أو التطبيقات المحدودة للمورد.ناهيك عن، وكيفية تدريب هذه النماذج بكفاءة لغوية منخفضة الموارد مثل اللغة العربية.في هذه الورقة، نحقق في كيفية تدريب هذه النماذج بطريقة مدمجة للعربية.نوضح أيضا كيف يمكن تطبيق التقطير والتجميل لإنشاء نماذج أصغر.تبين تجاربنا أن أكبر نموذج لدينا هو 2x أصغر من خط الأساس يمكن أن يحقق نتائج أفضل على مهام متعددة مع بيانات أقل بنسبة 2X لإحاطاء.
Natural language modelling has gained a lot of interest recently. The current state-of-the-art results are achieved by first training a very large language model and then fine-tuning it on multiple tasks. However, there is little work on smaller more compact language models for resource-limited devices or applications. Not to mention, how to efficiently train such models for a low-resource language like Arabic. In this paper, we investigate how such models can be trained in a compact way for Arabic. We also show how distillation and quantization can be applied to create even smaller models. Our experiments show that our largest model which is 2x smaller than the baseline can achieve better results on multiple tasks with 2x less data for pretraining.
المراجع المستخدمة
https://aclanthology.org/
الكشف عن السخرية هو واحد من أفضل المهام الصعبة في تصنيف النص، لا سيما بالنسبة للغة العربية غير الرسمية بالغشاء النحوي والدلي العالي.نقترح أنظمتين تسخير المعرفة من مهام متعددة لتحسين أداء المصنف.تقدم هذه الورقة أنظمة المستخدمة في مشاركتنا إلى المهام ا
تشكل بروز أجهزة اللغة التصويرية، مثل السخرية والمفارقة، تحديات خطيرة لتحليل المعنويات العربية (SA).في حين أن أعمال البحث السابقة تعامل معها واكتشاف السخرية بشكل منفصل، تقدم هذه الورقة نموذجا للتعلم العميق المتعدد للمكملات المتعددة الإنهائية (MTL)، مم
نظرا للجهود المعجدة والإدراكية المتورطة في التوليد اليدوي من تعليق واحد لكل إدخال الصورة / الفيديو، فإن موارد الشروح البشرية محدودة للغاية لتسمية المهام. نحن نحدد كفاءة الموارد اللغوية باعتبارها تصل إلى نفس الأداء مع التوضيحية المشروحة أقل لكل مدخلات
أصبحت القدرة على البحث ضمن مواقع الانترنت ضرورة للكثير من الناس و تعاني كثير من مواقع الانترنت من صعوبة وصول المستخدم للمعلومة المطلوبة بسبب عدم الأخذ بالحسبان معاني الكلمات و مدلولاتها Semantics عند البحث تدعم التقنيات الحالية معظم اللغات الطبيعية
في حين أن التلخيص المبشط في بعض اللغات، مثل اللغة الإنجليزية، فقد وصلت بالفعل نتائج جيدة إلى حد ما بسبب توفر موارد تحديد الاتجاه، مثل مجموعة بيانات CNN / Daily Mail، والتقدم الكبير في النماذج العصبية الإنتاجية، والتقدم المحرز في تلخيص الجماع للعربية