Char2subword: تمديد مساحة تضمين الكلمات الفرعية باستخدام تكوين طابع قوي


الملخص بالعربية

بايت زوج ترميز (BPE) هي خوارزمية في كل مكان في عملية تكييف الكلمات الفرعية لنماذج اللغة لأنها توفر فوائد متعددة. ومع ذلك، فإن هذه العملية تستند فقط إلى إحصاءات بيانات ما قبل التدريب، مما يجعل من الصعب على الممتلزمية أن تتعامل مع هجاء نادرة. من ناحية أخرى، على الرغم من أن طراز أخطاء إملائي، إلا أن نماذج على مستوى الطابع النقي غالبا ما تؤدي إلى تسلسل طويل غير معقول وجعل الأمر أكثر صعوبة في تعلم النموذج كلمات ذات معنى. لتخفيف هذه التحديات، نقترح وحدة الكلمات الفرعية القائمة على الطابع (Char2Subword) التي تتعلم جدول تضمين الكلمات الفرعية في النماذج المدربة مسبقا مثل Bert. تقوم وحدة char2subword الخاصة بنا بإنشاء تمثيلات من الشخصيات من المفردات الفرعية، ويمكن استخدامها كإستبدال قطرة من جدول تضمين الكلمات الفرعية. الوحدة النمطية قوية لتعديلات مستوى الأحرف مثل أخطاء إملائي، انعطاف Word، غلاف، علامات الترقيم. نحن ندمجها أكثر مع بيرت من خلال التدريب المسبق مع الحفاظ على معلمات محول بيرت الثابتة - وبالتالي توفير طريقة عملية. أخيرا، نوضح أن دمج الوحدة النمطية الخاصة بنا إلى mbert يحسن بشكل كبير الأداء في معيار التقرير اللغوي لوسائل الإعلام الاجتماعية (LINCE).

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث