يميل مؤلفو النص إلى استخدام إحساس واحد في الغالب ل Lemma التي يمكن أن تختلف بين المؤلفين المختلفين.قد لا يتم التقاط هذا بنموذج Disambiguation Sense (WSD) المعذر (WSD) الذي تم تدريبه على المؤلفين المتعددين.يجد عملنا أن الحواس الأولى في WordNet، والحواس السائدة من نوع DataSet الخاص بنا، والاستحواذ السائدة للمؤلف يمكن أن تكون مختلفة، وبالتالي، يمكن أن تؤدي النماذج المؤلف للأذرع بشكل جيد على مجموعة البيانات بأكملها، ولكن بشكل سيء على المؤلفين الأفراد.في هذا العمل، نستكشف أساليب تخصيص نماذج WSD عن طريق خياطة النماذج الموجودة من أحدث النماذج نحو الفرد من خلال استغلال توزيعات معنى المؤلف.نقترح مجموعة بيانات WSD الجديدة وإظهار أن تخصيص نظام WSD مع معرفة توزيعات معنى المؤلف أو الحواس السائدة يمكن أن تزيد بشكل كبير أدائها.
Authors of text tend to predominantly use a single sense for a lemma that can differ among different authors. This might not be captured with an author-agnostic word sense disambiguation (WSD) model that was trained on multiple authors. Our work finds that WordNet's first senses, the predominant senses of our dataset's genre, and the predominant senses of an author can all be different and therefore, author-agnostic models could perform well over the entire dataset, but poorly on individual authors. In this work, we explore methods for personalizing WSD models by tailoring existing state-of-the-art models toward an individual by exploiting the author's sense distributions. We propose a novel WSD dataset and show that personalizing a WSD system with knowledge of an author's sense distributions or predominant senses can greatly increase its performance.
المراجع المستخدمة
https://aclanthology.org/
أصبحت الأنظمة الخاضعة للإشراف في الوقت الحاضر وصفة قياسية ل disambiguation شعور النصوص (WSD)، مع طرازات اللغة القائمة على المحولات كعنصرها الأساسي. ومع ذلك، في حين أن هذه الأنظمة قد تحققت بالتأكيد عروض غير مسبوقة، فإن جميعها تعمل تقريبا في ظل افتراض
يتم تعريف الكلمات بناء على معانيها بطرق مختلفة في موارد مختلفة.يزيد محاذاة حواس الكلمات عبر الموارد المعجمية أحادية العمل، مما يزيد من تغطية المجال وتمكن تكامل البيانات وإدماجها.في هذه الورقة، نستكشف تطبيق أساليب التصنيف باستخدام الميزات المستخرجة يد
تصف هذه الورقة التقديم الخاص بنا إلى مهمة Semeval 2021 2. نحن نقارن قاعدة XLM-Roberta وكبير في إعدادات القليل من اللقطات والطلق الرصاص واختبار فعاليا فعالية استخدام مصنف جيران K-Enter في إعداد القليل من القصاصات بدلا منأكثر التقليدية متعددة الطبقات p
في لغات parataxis مثل الصينية، يتم بناء معاني الكلمات باستخدام تكوينات كلمات محددة، والتي يمكن أن تساعد في إزالة حواس الكلمات.ومع ذلك، نادرا ما يتم استكشاف هذه المعرفة في أساليب Disambiguation Sense (WSD) السابقة.في هذه الورقة، نقترح نفايات المعرفة ب
في هذه الورقة، نصف أساليبنا المقترحة لمهمة الغموض المتعددة اللغات في السياق في Semeval-2021.في هذه المهمة، يجب أن تحدد الأنظمة ما إذا كانت الكلمة التي تحدث في جملتين مختلفة يتم استخدامها بنفس المعنى أم لا.اقترحنا عدة طرق باستخدام نموذج بيرت المدرب مس