كفاءة النص متعدد اللغات التصنيف اللغات الهندية


الملخص بالعربية

الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث