تلعب التعبيرات الاصطلاحية (IE) دورا مهما باللغة الطبيعية، وكانت منذ فترة طويلة ألم في الرقبة "لأنظمة NLP.على الرغم من ذلك، تظل مهام توليد النص المتعلقة بالفئرات التي تم استكشافها إلى حد كبير.في هذه الورقة، نقترح اثنين من المهام الجديدة لتوليد الجملة الاصطلاحية وتعويضات لملء هذه الفجوة البحثية.نقدم مجموعة بيانات رائعة من 823 منشأة، وجزعة موازية مع جمل تحتوي عليها ونفس الجمل حيث تم استبدال المنشأ بصلاحياتها الحرفية كمورد أساسي لمهامنا.نقوم بقيادة نماذج التعلم العميق الموجودة، والتي لها أداء حديثة على المهام ذات الصلة باستخدام التقييم الآلي واليدوي مع مجموعة بياناتنا لإلهام المزيد من الأبحاث حول مهامنا المقترحة.من خلال إنشاء نماذج خط الأساس، نحن تمهد الطريق لمزيد من النمذجة الأكثر شمولا ودقيقة من المنشأ، سواء من أجل جيل ومعادلات إعادة الصياغة.
Idiomatic expressions (IE) play an important role in natural language, and have long been a pain in the neck'' for NLP systems. Despite this, text generation tasks related to IEs remain largely under-explored. In this paper, we propose two new tasks of idiomatic sentence generation and paraphrasing to fill this research gap. We introduce a curated dataset of 823 IEs, and a parallel corpus with sentences containing them and the same sentences where the IEs were replaced by their literal paraphrases as the primary resource for our tasks. We benchmark existing deep learning models, which have state-of-the-art performance on related tasks using automated and manual evaluation with our dataset to inspire further research on our proposed tasks. By establishing baseline models, we pave the way for more comprehensive and accurate modeling of IEs, both for generation and paraphrasing.
المراجع المستخدمة
https://aclanthology.org/
تضمين الجملة تشفير المعلومات المتعلقة باستخدام التعابير في جملة.تقارير هذه الورقة مجموعة من التجارب التي تجمع بين المنهجية التحقيق مع اخفاء المدخلات لتحليل مكان وجود هذه المعلومات الاصطلاحية هذه، وما شكله.تشير نتائجنا إلى أن المفتاح الاصطلاعي لمصدر ب
تهدد السرطانات (بما فيها سرطانات الفم) الحياة الإنسانية لذلك يجب تحريها
و تشخيصها مبكرا لنستطيع تجنبها، و أكثر من 90 % من هذه الخباثات الفموية هي سرطانات شائكة الخلايا، و مازال إنذار هذه الخباثات سيئاً (نحو 50 % نسبة بقيا 5 سنوات).
يعد البروتين الغشائي لمنشأ الحركة-11 (KMP-11)، الموجود في جميع وحيدات الخلية ذات الأسواط المدروسة إلى الآن، مرشحاً محتملاً ليكون لقاحاً ضد داء الليشمانيات. إذ أن الجزيئة المرشحة لتكون لقاحاً مناسباً ضد داء الليشمانيات يجب أن يعبر عنها في عديمات السوط
توليد الفقرات من المحتويات المتنوعة مهمة في العديد من التطبيقات.تنتج نماذج الجيل الموجودة محتويات مماثلة من السياقات المتجانسة بسبب ترتيب الجملة الثابتة إلى اليمين.تتبنى فكرتنا أوامر الجملة لتحسين تنوع المحتوى من الفقرة متعددة الجملة.نقترح برجعة إطار
على الرغم من الأداء الممتاز في مهام مثل الإجابة على الأسئلة، تظل الهيغات القائمة على المحولات حساسة للمغوصات النحوية والسياقية. توفر إعادة صياغة الأسئلة (QP) حلا واعدا كوسيلة لزيادة مجموعات البيانات الحالية. تتضمن التحديات الرئيسية لنماذج QP الحالية