اشتقاق الميزات الدلالية السياقية من Bert (وغيرها من طراز المحولات)


الملخص بالعربية

وضعت النماذج المستندة إلى بنية المحولات، مثل بيرت، خطوة حاسمة إلى الأمام في مجال معالجة اللغة الطبيعية. الأهم من ذلك، فإنها تسمح بإنشاء Adgeddings Word التي تلتقط معلومات دهالية مهمة حول الكلمات في السياق. ومع ذلك، ككيانات واحدة، من الصعب تفسير هذه الأشرطة وتفسير النماذج المستخدمة لإنشاءها بأنها غير مبتمة. اقترح الموثق والزملاء مساحة تضمين بديهية حيث يعتمد كل بعدا على واحدة من 65 من الميزات الدلالية الأساسية. لسوء الحظ، توجد المساحة فقط لمجموعة بيانات صغيرة من 535 كلمة، مما يحد من استخداماتها. العمل السابق (UTSUMI، 2018، 2020؛ Turton et al.، 2020)، أظهر أن ميزات الموثق يمكن استخلاصها من المدينات الثابتة واستقلاعها بنجاح لمفردات جديدة كبيرة. اتخاذ الخطوة التالية، توضح هذه الورقة أن ميزات الموثق يمكن أن تستمد من مساحة تضمين بيرت. هذا يوفر شيئين؛ (1) قيم ميزة الدلالية المستمدة من Adgeddings Word السياقي و (2) رؤى في كيفية تمثيل الميزات الدلالية عبر طبقات مختلفة من نموذج Bert.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث