تصف هذه الورقة التقديمات من قبل Team HWR إلى المهمة المشتركة (DLI) التي تم تنظيمها في ورشة عمل فاريدية 2021. تتضمن مجموعة تدريب DLI 16،674 تعليقات يوتيوب مكتوبة في البرنامج النصي الروماني يحتوي على نص مختلط من التعليمات البرمجية مع اللغة الإنجليزية واحدا من اللغات الثلاثة الجنوبية الدرفيدية: كانادا، ملايال، والتاميل. لقد قدمنا النتائج التي تم إنشاؤنا باستخدام نموذجين، وهو مصنف بايز ساذج مع نماذج بلغة تكيفية، والتي أثبتت الحصول على أداء تنافسي في العديد من مهام تحديد اللغة واللهجة، وعلى نموذج يستند إلى المحولات الذي يعتبر على نطاق واسع كحدث الفن في عدد من مهام NLP. تم إرسال طلبنا الأول في مسار التقديم المغلق باستخدام مجموعة التدريب فقط المقدمة من منظمي المهام المشتركة، في حين أن التقديم الثاني يعتبر مفتوحا لأنه استخدم نموذجا مسبقا تدريبا على البيانات الخارجية. حصل فريقنا على المركز الثاني المشترك في المهمة المشتركة مع التقديم على أساس بايس ساذج. تعزز نتائجنا فكرة أن أساليب التعلم العميقة ليست تنافسية في المهام المتعلقة بتحديد اللغة لأنها في العديد من مهام تصنيف النص الأخرى.
This paper describes the submissions by team HWR to the Dravidian Language Identification (DLI) shared task organized at VarDial 2021 workshop. The DLI training set includes 16,674 YouTube comments written in Roman script containing code-mixed text with English and one of the three South Dravidian languages: Kannada, Malayalam, and Tamil. We submitted results generated using two models, a Naive Bayes classifier with adaptive language models, which has shown to obtain competitive performance in many language and dialect identification tasks, and a transformer-based model which is widely regarded as the state-of-the-art in a number of NLP tasks. Our first submission was sent in the closed submission track using only the training set provided by the shared task organisers, whereas the second submission is considered to be open as it used a pretrained model trained with external data. Our team attained shared second position in the shared task with the submission based on Naive Bayes. Our results reinforce the idea that deep learning methods are not as competitive in language identification related tasks as they are in many other text classification tasks.
References used
https://aclanthology.org/
Dravidian languages, such as Kannada and Tamil, are notoriously difficult to translate by state-of-the-art neural models. This stems from the fact that these languages are morphologically very rich as well as being low-resourced. In this paper, we fo
The use of attention mechanisms in deep learning approaches has become popular in natural language processing due to its outstanding performance. The use of these mechanisms allows one managing the importance of the elements of a sequence in accordan
Extracting the most important part of legislation documents has great business value because the texts are usually very long and hard to understand. The aim of this article is to evaluate different algorithms for text summarization on EU legislation
Deep neural networks and huge language models are becoming omnipresent in natural language applications. As they are known for requiring large amounts of training data, there is a growing body of work to improve the performance in low-resource settin
Finding the year of writing for a historical text is of crucial importance to historical research. However, the year of original creation is rarely explicitly stated and must be inferred from the text content, historical records, and codicological cl