أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الورقة، نقترح طريقة لتعلم تمثيلات الكلمات التي تتبع هذه الاستراتيجية الأساسية، ولكنها تختلف عن تضمين الكلمة القياسية بطريقتين مهمتين. أولا، نستفصل من نماذج اللغة السياقية (CLMS) بدلا من أكياس من مجاهد Word لتشفير السياقات. ثانيا، بدلا من تعلم كلمة متجه كلمة مباشرة، نستخدم نموذجا موضوعا لتقسيم السياقات التي تظهر الكلمات التي تظهر فيها الكلمات، ثم تعلم ناقلات موضوعية مختلفة لكل كلمة. أخيرا، نستخدم إشارة إشراف خاصة بمهام مهمة لإجراء مجموعة ناعمة من المتجهات الناتجة. نظرا لأن هذه الاستراتيجية البسيطة تؤدي إلى ناقلات Word عالية الجودة، والتي تعد أكثر تنبؤا بالخصائص الدلالية أكثر من Adgeddings والاستراتيجيات القائمة على CLM.
One of the long-standing challenges in lexical semantics consists in learning representations of words which reflect their semantic properties. The remarkable success of word embeddings for this purpose suggests that high-quality representations can be obtained by summarizing the sentence contexts of word mentions. In this paper, we propose a method for learning word representations that follows this basic strategy, but differs from standard word embeddings in two important ways. First, we take advantage of contextualized language models (CLMs) rather than bags of word vectors to encode contexts. Second, rather than learning a word vector directly, we use a topic model to partition the contexts in which words appear, and then learn different topic-specific vectors for each word. Finally, we use a task-specific supervision signal to make a soft selection of the resulting vectors. We show that this simple strategy leads to high-quality word vectors, which are more predictive of semantic properties than word embeddings and existing CLM-based strategies.
المراجع المستخدمة
https://aclanthology.org/
وضعت النماذج المستندة إلى بنية المحولات، مثل بيرت، خطوة حاسمة إلى الأمام في مجال معالجة اللغة الطبيعية. الأهم من ذلك، فإنها تسمح بإنشاء Adgeddings Word التي تلتقط معلومات دهالية مهمة حول الكلمات في السياق. ومع ذلك، ككيانات واحدة، من الصعب تفسير هذه ا
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة
أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي.
تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع ت
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى