ترغب بنشر مسار تعليمي؟ اضغط هنا

برزت نماذج اللغة المدربة مسبقا كطرق ناجحة للغاية لتعلم تمثيلات نصية جيدة. ومع ذلك، فإن كمية المعرفة المنظمة المحتجزة في هذه النماذج، وكيف يمكن استخراج (إذا كان على الإطلاق)، فلا يزال سؤالا مفتوحا. في هذا العمل، نهدف إلى التعلم مباشرة من التمثيلات الن صية التي ترفض المعرفة المنظمة حول الكيانات المذكورة في النص. هذا يمكن أن يكون مفيدا بشكل خاص لمهام المصب التي هي مكثفة المعرفة. يستخدم نهجنا اهتماما الذات بين الكلمات في كيانات الرسم البياني للنص والمعرفة (KG) المذكورة في النص. في حين تتطلب الأساليب الحالية بيانات مرتبطة بالكياء للتدريب المسبق، فإننا نتدرب باستخدام هدف إخفاء الإشارة وهدف المرشح - الذي لا يتطلب أي روابط كيانا وفتح فقط الوصول إلى جدول الاسم المستعار لاسترداد المرشحين، تمكين ما قبل التدريب على نطاق واسع. نظهر أن النموذج المقترح يتعلم تمثيلات النص المستنيرة بالمعرفة التي تسفر عن تحسينات على مهام المصب على الأساليب الحالية.
وضعت النماذج المستندة إلى بنية المحولات، مثل بيرت، خطوة حاسمة إلى الأمام في مجال معالجة اللغة الطبيعية. الأهم من ذلك، فإنها تسمح بإنشاء Adgeddings Word التي تلتقط معلومات دهالية مهمة حول الكلمات في السياق. ومع ذلك، ككيانات واحدة، من الصعب تفسير هذه ا لأشرطة وتفسير النماذج المستخدمة لإنشاءها بأنها غير مبتمة. اقترح الموثق والزملاء مساحة تضمين بديهية حيث يعتمد كل بعدا على واحدة من 65 من الميزات الدلالية الأساسية. لسوء الحظ، توجد المساحة فقط لمجموعة بيانات صغيرة من 535 كلمة، مما يحد من استخداماتها. العمل السابق (UTSUMI، 2018، 2020؛ Turton et al.، 2020)، أظهر أن ميزات الموثق يمكن استخلاصها من المدينات الثابتة واستقلاعها بنجاح لمفردات جديدة كبيرة. اتخاذ الخطوة التالية، توضح هذه الورقة أن ميزات الموثق يمكن أن تستمد من مساحة تضمين بيرت. هذا يوفر شيئين؛ (1) قيم ميزة الدلالية المستمدة من Adgeddings Word السياقي و (2) رؤى في كيفية تمثيل الميزات الدلالية عبر طبقات مختلفة من نموذج Bert.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا