اشتقاق ناقلات الكلمات من نماذج اللغة السياقية باستخدام تحديد الموضوع


الملخص بالعربية

أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الورقة، نقترح طريقة لتعلم تمثيلات الكلمات التي تتبع هذه الاستراتيجية الأساسية، ولكنها تختلف عن تضمين الكلمة القياسية بطريقتين مهمتين. أولا، نستفصل من نماذج اللغة السياقية (CLMS) بدلا من أكياس من مجاهد Word لتشفير السياقات. ثانيا، بدلا من تعلم كلمة متجه كلمة مباشرة، نستخدم نموذجا موضوعا لتقسيم السياقات التي تظهر الكلمات التي تظهر فيها الكلمات، ثم تعلم ناقلات موضوعية مختلفة لكل كلمة. أخيرا، نستخدم إشارة إشراف خاصة بمهام مهمة لإجراء مجموعة ناعمة من المتجهات الناتجة. نظرا لأن هذه الاستراتيجية البسيطة تؤدي إلى ناقلات Word عالية الجودة، والتي تعد أكثر تنبؤا بالخصائص الدلالية أكثر من Adgeddings والاستراتيجيات القائمة على CLM.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث