نقترح نموذج فرقة للتنبؤ بالتعقيد المعجمي للكلمات وتعبيرات متعددة الكلمات (MWES).يتلقى النموذج كإدخال جملة بكلمة مستهدفة أو MWE وتخرج درجة التعقيد.بالنظر إلى أن التحدي الرئيسي مع هذه المهمة هو الحجم المحدود للبيانات المشروح، يعتمد نموذجنا على تمثيلات السياقية المحددة مسبقا من نماذج اللغة القائمة على المحولات المختلفة (IE، Bert and Roberta)، وعلى مجموعة متنوعة منطرق التدريب لمزيد من تعزيز التعميم النموذجي والترويج: التعلم متعدد الخطوات من الترابط والتعلم متعدد المهام، والتدريب الخصم.بالإضافة إلى ذلك، نقترح إثراء التمثيلات السياقية بإضافة ميزات مصنوعة يدوية أثناء التدريب.حقق نموذجنا نتائج تنافسية ومرتبة بين أنظمة أفضل 10 في كلتا المهام الفرعية.
We propose an ensemble model for predicting the lexical complexity of words and multiword expressions (MWEs). The model receives as input a sentence with a target word or MWE and outputs its complexity score. Given that a key challenge with this task is the limited size of annotated data, our model relies on pretrained contextual representations from different state-of-the-art transformer-based language models (i.e., BERT and RoBERTa), and on a variety of training methods for further enhancing model generalization and robustness: multi-step fine-tuning and multi-task learning, and adversarial training. Additionally, we propose to enrich contextual representations by adding hand-crafted features during training. Our model achieved competitive results and ranked among the top-10 systems in both sub-tasks.
المراجع المستخدمة
https://aclanthology.org/
توضح هذه الورقة تقديم فريق LCP-RIT إلى مهمة Semeval-2021 1: تنبؤ التعقيد المعجمي (LCP).قدم منظمو المهام للمشاركين نسخة معدية من المعقد (Shardlow et al.، 2020)، ومجموعة بيانات إنجليزية متعددة المجالات التي تم تفاحها الكلمات في السياق فيما يتعلق بعقوده
تقدم هذه الورقة النتائج والنتائج الرئيسية لمهمة Semeval-2021 1 - تنبؤ التعقيد المعجمي.قدمنا المشاركين مع نسخة معدية من كوربوس المعقدة (Shardlow et al. 2020).تعد Complex وجبة إنجليزية متعددة المجالات التي تم فيها تفاح الكلمات والتعبيرات المتعددة الكلم
تنقل تنبؤ التعقيد المعجمي (LCP) باحسن مستوى تعقيد رمز رمزي أو مجموعة من الرموز في جملة.يلعب دورا حيويا في تحسين مهام NLP المختلفة بما في ذلك التبسيط المعجمي والترجمات وتوليد النص.ومع ذلك، فإن المعنى المتعدد لكلمة في ظروف متعددة، وهيكل مجمع نحوي، والا
في هذه الورقة، نقترح نموذجا مقرا له عناية سياقية مع تدريبات دقيقة على مرحلتين باستخدام روبرتا.أولا، نقوم بإجراء النغمة الجميلة في المرحلة الأولى على Corpus مع روبرتا، بحيث يمكن للنموذج أن يتعلم بعض المعرفة المسبقة المجال.ثم نحصل على التضمين السياقي ب
في هذه المساهمة، وصفنا النظام الذي قدمه فريق Polyu CBS-Comp في المهمة 1 من Semeval 2021، حيث كان الهدف هو تقدير تعقيد الكلمات في سياق عقوبة معينة.نظامنا العلوي، بناء على مزيج من ميزات المعجميات والجنسية، والكلمات الميزات والمشتقات المحولات وعلى زيادة