تصف هذه الورقة التقديمات من قبل Team HWR إلى المهمة المشتركة (DLI) التي تم تنظيمها في ورشة عمل فاريدية 2021. تتضمن مجموعة تدريب DLI 16،674 تعليقات يوتيوب مكتوبة في البرنامج النصي الروماني يحتوي على نص مختلط من التعليمات البرمجية مع اللغة الإنجليزية واحدا من اللغات الثلاثة الجنوبية الدرفيدية: كانادا، ملايال، والتاميل. لقد قدمنا النتائج التي تم إنشاؤنا باستخدام نموذجين، وهو مصنف بايز ساذج مع نماذج بلغة تكيفية، والتي أثبتت الحصول على أداء تنافسي في العديد من مهام تحديد اللغة واللهجة، وعلى نموذج يستند إلى المحولات الذي يعتبر على نطاق واسع كحدث الفن في عدد من مهام NLP. تم إرسال طلبنا الأول في مسار التقديم المغلق باستخدام مجموعة التدريب فقط المقدمة من منظمي المهام المشتركة، في حين أن التقديم الثاني يعتبر مفتوحا لأنه استخدم نموذجا مسبقا تدريبا على البيانات الخارجية. حصل فريقنا على المركز الثاني المشترك في المهمة المشتركة مع التقديم على أساس بايس ساذج. تعزز نتائجنا فكرة أن أساليب التعلم العميقة ليست تنافسية في المهام المتعلقة بتحديد اللغة لأنها في العديد من مهام تصنيف النص الأخرى.
This paper describes the submissions by team HWR to the Dravidian Language Identification (DLI) shared task organized at VarDial 2021 workshop. The DLI training set includes 16,674 YouTube comments written in Roman script containing code-mixed text with English and one of the three South Dravidian languages: Kannada, Malayalam, and Tamil. We submitted results generated using two models, a Naive Bayes classifier with adaptive language models, which has shown to obtain competitive performance in many language and dialect identification tasks, and a transformer-based model which is widely regarded as the state-of-the-art in a number of NLP tasks. Our first submission was sent in the closed submission track using only the training set provided by the shared task organisers, whereas the second submission is considered to be open as it used a pretrained model trained with external data. Our team attained shared second position in the shared task with the submission based on Naive Bayes. Our results reinforce the idea that deep learning methods are not as competitive in language identification related tasks as they are in many other text classification tasks.
المراجع المستخدمة
https://aclanthology.org/
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم
أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص
استخراج الجزء الأكثر أهمية من وثائق التشريعات له قيمة عمل كبيرة لأن النصوص عادة ما تكون طويلة جدا ويصعب فهمها.الهدف من هذه المقالة هو تقييم خوارزميات مختلفة لتلخيص النص على وثائق تشريعات الاتحاد الأوروبي.يحتوي المحتوى على كلمات خاصة بالمجال.جمعنا مجم
أصبحت الشبكات العصبية العميقة ونماذج اللغة الضخمة في كل شيء في تطبيقات اللغة الطبيعية. نظرا لأنهم معروفون بطلب كميات كبيرة من بيانات التدريب، فهناك مجموعة متنامية من العمل لتحسين الأداء في إعدادات الموارد المنخفضة. بدافع من التغييرات الأساسية الأخيرة
العثور على سنة الكتابة لنص تاريخي له أهمية حاسمة للبحث التاريخي.ومع ذلك، نادرا ما يتم ذكر السنة الإبداعية الأصلية بشكل صريح ويجب استنتاجها من المحتوى النصي والسجلات التاريخية والقرائن الترفيزية.بالنظر إلى نص مكبس، فقد تم استخدام تعلم الجهاز بنجاح لتق