كيف منخفض منخفض جدا؟تأخذ أحادية اللون على Lemmatisation باللغات الهندية


الملخص بالعربية

تهدف Lemmatization إلى تقليل مشكلة البيانات المتناثرة عن طريق ربط الأشكال المصدرة للكلمة إلى شكل قاموسها. ركزت معظم الأعمال السابقة على Lemmatization ML القائمة على لغات الموارد عالية، حيث تتوفر مجموعات البيانات (نماذج Word) بسهولة. للحصول على اللغات التي ليس لديها عمل لغوي متاح، لا سيما على التشكل أو بلغات التحقيق الحسابي للقواعد اللغوية معقدة ومرهقة، Lemmatizers التعلم الآلي هي الطريقة توجو. في هذه الورقة، نكرس انتباهنا إلى Lemmatisation للموارد المنخفضة، واللغات الهندية الغنية بالمظورة التي تستخدم الأساليب العصبية. هنا، يعني الموارد المنخفضة فقط عدد قليل من أشكال الكلمة المتاحة فقط. نقوم بإجراء اختبارات لتحليل التباين في أداء نماذج أحادية الأونلينغ على تغيير حجم Corpus وحجم العلامات المورفولوجية السياقية للتدريب. نظرا لأن النهج أحادية الأنتجة مع تكبير البيانات يمكن أن يوفر دقة تنافسية حتى في إعداد الموارد المنخفضة، والذي يبشر جيدا ل NLP في إعداد مورد منخفض.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث