إن التنبؤ بمستوى تعقيد كلمة أو عبارة تعتبر مهمة صعبة.يتم التعرف عليه حتى كخطوة حاسمة في العديد من تطبيقات NLP، مثل إعادة ترتيب النصوص ومبسط النص.تعامل البحث المبكر المهمة بمثابة مهمة تصنيف ثنائية، حيث توقعت النظم وجود تعقيد كلمة (معقد مقابل غير معقدة).تم تصميم دراسات أخرى لتقييم مستوى تعقيد الكلمات باستخدام نماذج الانحدار أو نماذج تصنيف الوسائط المتعددة.تظهر نماذج التعلم العميق تحسنا كبيرا على نماذج تعلم الآلات مع صعود تعلم التحويل ونماذج اللغة المدربة مسبقا.تقدم هذه الورقة نهجنا الذي فاز في المرتبة الأولى في المهمة السامية 1 (Sub STASK1).لقد حسبنا درجة تعقيد كلمة من 0-1 داخل النص.لقد تم تصنيفنا في المرتبة الأولى في المسابقة باستخدام نماذج اللغة المدربة مسبقا بيرت روبرتا، مع درجة ارتباط بيرسون من 0.788.
Predicting the complexity level of a word or a phrase is considered a challenging task. It is even recognized as a crucial step in numerous NLP applications, such as text rearrangements and text simplification. Early research treated the task as a binary classification task, where the systems anticipated the existence of a word's complexity (complex versus uncomplicated). Other studies had been designed to assess the level of word complexity using regression models or multi-labeling classification models. Deep learning models show a significant improvement over machine learning models with the rise of transfer learning and pre-trained language models. This paper presents our approach that won the first rank in the SemEval-task1 (sub stask1). We have calculated the degree of word complexity from 0-1 within a text. We have been ranked first place in the competition using the pre-trained language models Bert and RoBERTa, with a Pearson correlation score of 0.788.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نصف مشاركتنا في مهمة تقوية المعقدة المعجمية (LCP) مهمة Semeval 2021، والتي تنطوي على التنبؤ بتصنيفات ذاتية للتعقيد للكلمات الفردية الإنجليزية وتعبيرات متعددة الكلمة، المقدمة في السياق.يعتمد نهجنا على مزيج من النماذج التوزيعية، كل من ال
في هذه الورقة، نقدم ثلاثة أنظمة مختلفة للإشراف على تنبؤ التعقيد المعجمي باللغة الإنجليزية للتعبيرات الفردية والمتعددة المهام ل Semeval-2021.الرمز المستهدف في السياق.تجمع أفضل نظامنا بين المعلومات من هذه المصادر الثلاث.تشير النتائج إلى أن المعلومات ال
المساهمة الرئيسية لهذه الورقة هي نماذج اللغات القائمة على Tune-Tune - مدربة مسبقا على العديد من النصوص، وبعضها عام (على سبيل المثال، ويكيبيديا، bookscorpus)، وبعضها يجري شركة DataSet المعقدة، والبعض الآخر يجريمن مجالات محددة أخرى مثل التمويل والقانون
تصف هذه الورقة نظام مقدم من فريق Biggreen إلى LCP 2021 للتنبؤ بالتعقيد المعجمي للكلمات الإنجليزية في سياق معين.نحن نكرب نموذجا يعتمد على الهندسة مع نموذج شبكة عصبي عميق تأسست على بيرتف.بينما ينفذ بيرت نفسها بشكل تنافسي، فإن نموذجنا القائم على الهندسة
تنطوي تنبؤ التعقيد المعجمي (LCP) على تعيين درجة صعوبة إلى كلمة أو تعبير معين، في نص مخصص للجمهور المستهدف.في هذه الورقة، نقدم نظام جديد يعتمد على التعلم العميق لهذه المهمة الصعبة.يتكون النظام المقترح من نموذج تعليمي عميق، استنادا إلى تشفير المحولات ا