في هذه الورقة، نقدم أنظمتنا المقدمة إلى مهمة Semeval-2021 1 بشأن تنبؤ التعقيد المعجمي. وكان الهدف من هذه المهمة المشتركة هو إنشاء أنظمة قادرة على التنبؤ بالتعقيد المعجمي لرموز الرموز Word وبرامج Bigram متعددة الكلمات داخل سياق جملة معطى، أالقيمة المستمرة تشير إلى الصعوبة في فهم الكلام المعني.تعتمد نهجنا على مجموعة من مجموعات الانحدار المتدرج المجهزة باستخدام ميزة غير متجانسة تم تعيينها بين الميزات اللغوية، ومظلات الكلمة الثابتة والسياقية، وتعاونية نفسية المعيار، وتردد Wordnet، و Word- وشخصية Bigram وإدراجه وإدراجه في نصوص الكلمات لإنشاء نموذج قادر على تعيين كلمة قادرة على تعيين كلمة قادرة على تعيين كلمة واحدةأو تعبير متعدد الكلمات تعبير تعقيد تعتمد على السياق.يمكننا أن نظهر أنه يمكن أن تساعد تضمين السلسلة السياقية بشكل خاص في التنبؤ بالتعقيد المعجمي.
In this paper, we present our systems submitted to SemEval-2021 Task 1 on lexical complexity prediction.The aim of this shared task was to create systems able to predict the lexical complexity of word tokens and bigram multiword expressions within a given sentence context, a continuous value indicating the difficulty in understanding a respective utterance. Our approach relies on gradient boosted regression tree ensembles fitted using a heterogeneous feature set combining linguistic features, static and contextualized word embeddings, psycholinguistic norm lexica, WordNet, word- and character bigram frequencies and inclusion in wordlists to create a model able to assign a word or multiword expression a context-dependent complexity score. We can show that especially contextualised string embeddings can help with predicting lexical complexity.
References used
https://aclanthology.org/
This paper describes our contribution to SemEval 2021 Task 1 (Shardlow et al., 2021): Lexical Complexity Prediction. In our approach, we leverage the ELECTRA model and attempt to mirror the data annotation scheme. Although the task is a regression ta
We present our approach to predicting lexical complexity of words in specific contexts, as entered LCP Shared Task 1 at SemEval 2021. The approach consists of separating sentences into smaller chunks, embedding them with Sent2Vec, and reducing the em
In this paper, we present three supervised systems for English lexical complexity prediction of single and multiword expressions for SemEval-2021 Task 1. We explore the use of statistical baseline features, masked language models, and character-level
The present work aims at assigning a complexity score between 0 and 1 to a target word or phrase in a given sentence. For each Single Word Target, a Random Forest Regressor is trained on a feature set consisting of lexical, semantic, and syntactic in
This paper describes our submission to the SemEval-2021 shared task on Lexical Complexity Prediction. We approached it as a regression problem and present an ensemble combining four systems, one feature-based and three neural with fine-tuning, freque