أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي. تحقيقا لهذه الغاية، نقدم مجموعة بيانات ممتدة ومشروحة للإنسان من التشابه بين الكلمة المعززة ومقبولية التعاونية، وتقييم مدى جودة تشابه المضبوط يتوقع التشابه في المعنى. تشير كلا النوعين من الأحكام البشرية إلى أن تشابه تفسيرات البلاثي يسقط في متواصل بين هوية المعنى والمجانسة. ومع ذلك، نلاحظ أيضا اختلافات كبيرة في تصنيفات التشابه من PolySemes، وتشكيل أنماط ثابتة لأنواع مختلفة من بديل الشعور بالسلاسة. وهكذا يبدو أن مجموعة البيانات الخاصة بنا هي التقاط جزء كبير من تعقيد الغموض المعجمي، ويمكن أن توفر سرير اختبار واقعي للمشروعات السياقية. من بين النماذج التي تم اختبارها، تظهر بيرت كبيرة أقوى ارتباطا مع تصنيفات تشابه تشابه الكلمة المجمعة، ولكن النضالات لتكرار أنماط التشابه الملاحظة باستمرار. عند تجميع نماذج كلمات غامضة تستند إلى ادباتهم، يعرض النموذج ثقة عالية في تماثيل متفائل وبعض أنواع بدائل البلاستيك، ولكن يفشل باستمرار للآخرين.
One of the central aspects of contextualised language models is that they should be able to distinguish the meaning of lexically ambiguous words by their contexts. In this paper we investigate the extent to which the contextualised embeddings of word forms that display multiplicity of sense reflect traditional distinctions of polysemy and homonymy. To this end, we introduce an extended, human-annotated dataset of graded word sense similarity and co-predication acceptability, and evaluate how well the similarity of embeddings predicts similarity in meaning. Both types of human judgements indicate that the similarity of polysemic interpretations falls in a continuum between identity of meaning and homonymy. However, we also observe significant differences within the similarity ratings of polysemes, forming consistent patterns for different types of polysemic sense alternation. Our dataset thus appears to capture a substantial part of the complexity of lexical ambiguity, and can provide a realistic test bed for contextualised embeddings. Among the tested models, BERT Large shows the strongest correlation with the collected word sense similarity ratings, but struggles to consistently replicate the observed similarity patterns. When clustering ambiguous word forms based on their embeddings, the model displays high confidence in discerning homonyms and some types of polysemic alternations, but consistently fails for others.
المراجع المستخدمة
https://aclanthology.org/
تقرر ما إذا كانت كلمة غامضة من الناحية الدلوية مجهبة أو polysemous تعادل إنشاء ما إذا كان لديه أي زوج من الحواس غير المرتبط بهليا.نقدم طرق جديدة لهذه المهمة التي تستفيد من المعلومات من الموارد المعجمية متعددة اللغات.نحن نثبت رسميا الخصائص النظرية الت
نقترح طريقة رواية من التمييز المجنس - Polysemy لثلاثة لغات الهند الهندية (الإنجليزية والإسبانية والبولندية).تم استخدام آلات Vector Support واستخدام الانحدار اللوجستي لاسو بنجاح في هذه المهمة، مما يتفوق على الأساس.تم استخدام مجموعة الميزات خصائص Lemma
نقدم مبادرة Norlm المستمرة لدعم إنشاء واستخدام نماذج اللغة السياقية الكبيرة للغاية للنرويجية (ومن حيث المبدأ لغات الشمال الأخرى)، بما في ذلك بيئة برنامج جاهزة للاستخدام، بالإضافة إلى تقرير خبرة لإعداد البيانات والتدريبوبعدتقدم هذه الورقة أول نماذج لغ
نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغا
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف