تعلم التعرف على ميزات اللهجة


الملخص بالعربية

بناء أنظمة NLP التي تخدم الجميع يتطلب محاسبة اختلافات اللهجة. ولكن اللهجات ليست كيانات متجانسة: بالأحرى، يتم التقاط الفروق بين اللهجات وداخلها من خلال وجود وغياب العشرات من ميزات اللهجة في الكلام والنص، مثل حذف كوبولا في إنه ∅ قيد التشغيل ". في هذه الورقة، نقدم مهمة الكشف عن ميزة اللهجة، وتقديم نهج تعليمي متعدد الأيتاكي، بناء على المحولات المحددة مسبقا. بالنسبة لمعظم اللهجات، لا تتوفر كوربورا المشروح على نطاق واسع لهذه الميزات، مما يجعل من الصعب تدريب التعرف عليها. نحن ندرب نماذجنا على عدد صغير من أزواج صغيرة، والبناء على كيفية تحديد اللغويين عادة ميزات اللهجة. التقييم في مجموعة اختبار من 22 ميزات لهجيات للهنديون يدل على أن هذه النماذج تتعلم كيفية التعرف على العديد من الميزات بدقة عالية، وأن عدد قليل من أزواج الحد الأدنى يمكن أن تكون فعالة للتدريب مع الآلاف من الأمثلة المسمى. ونحن نوضح أيضا إمكانية تطبيق ميزة الهياكل على حد سواء كإجراء من كثافة اللهجة وكمعشر لهجة اللهجة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث