تهدف Lemmatization إلى تقليل مشكلة البيانات المتناثرة عن طريق ربط الأشكال المصدرة للكلمة إلى شكل قاموسها. ركزت معظم الأعمال السابقة على Lemmatization ML القائمة على لغات الموارد عالية، حيث تتوفر مجموعات البيانات (نماذج Word) بسهولة. للحصول على اللغات التي ليس لديها عمل لغوي متاح، لا سيما على التشكل أو بلغات التحقيق الحسابي للقواعد اللغوية معقدة ومرهقة، Lemmatizers التعلم الآلي هي الطريقة توجو. في هذه الورقة، نكرس انتباهنا إلى Lemmatisation للموارد المنخفضة، واللغات الهندية الغنية بالمظورة التي تستخدم الأساليب العصبية. هنا، يعني الموارد المنخفضة فقط عدد قليل من أشكال الكلمة المتاحة فقط. نقوم بإجراء اختبارات لتحليل التباين في أداء نماذج أحادية الأونلينغ على تغيير حجم Corpus وحجم العلامات المورفولوجية السياقية للتدريب. نظرا لأن النهج أحادية الأنتجة مع تكبير البيانات يمكن أن يوفر دقة تنافسية حتى في إعداد الموارد المنخفضة، والذي يبشر جيدا ل NLP في إعداد مورد منخفض.
Lemmatization aims to reduce the sparse data problem by relating the inflected forms of a word to its dictionary form. Most prior work on ML based lemmatization has focused on high resource languages, where data sets (word forms) are readily available. For languages which have no linguistic work available, especially on morphology or in languages where the computational realization of linguistic rules is complex and cumbersome, machine learning based lemmatizers are the way togo. In this paper, we devote our attention to lemmatisation for low resource, morphologically rich scheduled Indian languages using neural methods. Here, low resource means only a small number of word forms are available. We perform tests to analyse the variance in monolingual models' performance on varying the corpus size and contextual morphological tag data for training. We show that monolingual approaches with data augmentation can give competitive accuracy even in the low resource setting, which augurs well for NLP in low resource setting.
المراجع المستخدمة
https://aclanthology.org/
هدف هذا البحث هو دراسة تقريب مبسط من أجل تصميم مضخمات أولية نقل ممانعة منخفضة الضجيج باستخدام ترانزيستورات ثنائية القطبية من أجل المستقبلات الضوئية. اِشْتُقَّتِ الحلول التحليلية من أجل الانحياز الأمثلي و ضجيج تيار الدخل المكافئ. ثم أُنجزت الدراسة بإج
یهدف الموضوع إلى دراسة تأثير الشوائب و البحث في الطرائق النظریة و التجریبية للحد من تشكل
هذه الشوائب في أثناء تصنيع الفولاذ . لقد قسمت الشوائب إلى الأكاسيد و الكبریتات و الشوائب المركبة
من كلا النوعين .من المعروف التأثير السيئ لهذه الشوائب في الخوا
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح
دُرِس في هذا البحث آلية انتشار ذرات الكروم و الخواص الميكانيكية و الكيميائية لطبقة الطلاء الانتشاري بالكروم في الفولاذ منخفض نسبة الكربون، و التي تعتبر إحدى تقنيات المعالجة السطحية. حيث تم إجراء العديد من التجارب العملية في وسط إشباعي مسحوقي من أجل ت