تهدف Lemmatization إلى تقليل مشكلة البيانات المتناثرة عن طريق ربط الأشكال المصدرة للكلمة إلى شكل قاموسها. ركزت معظم الأعمال السابقة على Lemmatization ML القائمة على لغات الموارد عالية، حيث تتوفر مجموعات البيانات (نماذج Word) بسهولة. للحصول على اللغات التي ليس لديها عمل لغوي متاح، لا سيما على التشكل أو بلغات التحقيق الحسابي للقواعد اللغوية معقدة ومرهقة، Lemmatizers التعلم الآلي هي الطريقة توجو. في هذه الورقة، نكرس انتباهنا إلى Lemmatisation للموارد المنخفضة، واللغات الهندية الغنية بالمظورة التي تستخدم الأساليب العصبية. هنا، يعني الموارد المنخفضة فقط عدد قليل من أشكال الكلمة المتاحة فقط. نقوم بإجراء اختبارات لتحليل التباين في أداء نماذج أحادية الأونلينغ على تغيير حجم Corpus وحجم العلامات المورفولوجية السياقية للتدريب. نظرا لأن النهج أحادية الأنتجة مع تكبير البيانات يمكن أن يوفر دقة تنافسية حتى في إعداد الموارد المنخفضة، والذي يبشر جيدا ل NLP في إعداد مورد منخفض.
Lemmatization aims to reduce the sparse data problem by relating the inflected forms of a word to its dictionary form. Most prior work on ML based lemmatization has focused on high resource languages, where data sets (word forms) are readily available. For languages which have no linguistic work available, especially on morphology or in languages where the computational realization of linguistic rules is complex and cumbersome, machine learning based lemmatizers are the way togo. In this paper, we devote our attention to lemmatisation for low resource, morphologically rich scheduled Indian languages using neural methods. Here, low resource means only a small number of word forms are available. We perform tests to analyse the variance in monolingual models' performance on varying the corpus size and contextual morphological tag data for training. We show that monolingual approaches with data augmentation can give competitive accuracy even in the low resource setting, which augurs well for NLP in low resource setting.
References used
https://aclanthology.org/
The aim of this research is to study a simplified approach for the design of low-noise bipolar
transimpedance preamplifiers for optical receivers. Analytical solutions for optimum biasing and
minimum equivalent input-noise current were derived. The
This paper aims at studying the influence of gangue aiid researching in the
theoretical empirical methods in order to limit the formation of such gangue
during the manufacture of steel. Gangues are divided to acids, sulfate and
compound gangue. Su
In this work, we investigate methods for the challenging task of translating between low- resource language pairs that exhibit some level of similarity. In particular, we consider the utility of transfer learning for translating between several Indo-
This paper describes TenTrans' submission to WMT21 Multilingual Low-Resource Translation shared task for the Romance language pairs. This task focuses on improving translation quality from Catalan to Occitan, Romanian and Italian, with the assistance
In this research, has been studied the spread of chromium atoms mechanism, and mechanical and chemical and properties of the diffusion chrome coating layer in low carbon steel, which is considered one of the surface treatment techniques. Where many p