لا يزال الاستحواذ على بيانات التدريب المتعدد اللغات يمثل تحديا في غزالة معنى الكلمة (WSD).لمعالجة هذه المشكلة، اقترحت النهج غير الخاضعة للكالة لإنشاء التعليقات التوضيحية بالمعنى تلقائيا لتدريب أنظمة WSD الخاضعة للإشراف.نقدم ثلاث طرق جديدة لإنشاء كوربورا المعشوفة بالشعور التي تستفيد الترجمات، وثبات الموازية، والموارد المعجمية، وكذلك تضمينات السياق والتركيب.تطبق أسلوبنا شبه الإشراف ترجمة الجهاز لنقل التعليقات التوضيحية القائمة إلى لغات أخرى.طرقنا اثنين من الأساليب غير الخاضعة لعمليات إعادة صياغة الشرح بالمعنى الناتج عن نظام WSD القائم على المعرفة عبر الترجمات المعجمية في كوربوس متوازي.نحصل على نتائج حديثة على معايير WSD القياسية.
Acquisition of multilingual training data continues to be a challenge in word sense disambiguation (WSD). To address this problem, unsupervised approaches have been proposed to automatically generate sense annotations for training supervised WSD systems. We present three new methods for creating sense-annotated corpora which leverage translations, parallel bitexts, lexical resources, as well as contextual and synset embeddings. Our semi-supervised method applies machine translation to transfer existing sense annotations to other languages. Our two unsupervised methods refine sense annotations produced by a knowledge-based WSD system via lexical translations in a parallel corpus. We obtain state-of-the-art results on standard WSD benchmarks.
المراجع المستخدمة
https://aclanthology.org/
لتخفيف الجهود البشرية من الحصول على شروح واسعة النطاق، تهدف أساليب استخراج العلاقات شبه الإشراف إلى الاستفادة من البيانات غير المسبقة بالإضافة إلى التعلم من عينات محدودة. تعاني أساليب التدريب الذاتي الحالية من مشكلة الانجراف التدريجي، حيث يتم دمج تسم
وصفنا أنظمة جامعة ألبرتا لمهمة الغموض في السياق Semeval-2021 (WIC).نستكشف استخدام معلومات الترجمة لتحديد ما إذا كان هناك رموزان مختلفان من نفس الكلمة يتوافق مع نفس الشعور بالكلمة.يركز تركيزنا على تطوير النهج النظرية المبدئية التي ترتكز في الظواهر الل
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع
في هذه الدراسة، اقترحنا طريقة وضع العلامات الزائفة القائمة على معجم الرواية باستخدام نهج AI (XAI) القائم. النهج الحالي لديه قيود أساسية في متواضتهم لأن المصنف الفقراء يؤدي إلى وضع علامة ناعمة غير دقيقة، ويؤدي إلى تصنيف الفقراء بشكل متكرر. وفي الوقت ن
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل