على الرغم من نجاحها في مجموعة متنوعة من مهام NLP، فإن نماذج اللغة المدربة مسبقا، بسبب اعتمادها الشديد على التركيز، تفشل في التقاط بفعالية معاني تعبيرات الكلمات المتعددة (MWES)، وخاصة التعابير. لذلك، هناك حاجة ماسة إلى مجموعات البيانات والأساليب لتحسين تمثيل MWES. تقتصر مجموعات البيانات الحالية على توفير درجة اعتبني التعبيرات مع الترجمة الحرفية، عند الاقتضاء، (واحدة)، ترجمة غير حرفية من MWES. يقدم هذا العمل مجموعة بيانات جديدة من الجمل التي تحدث بشكل طبيعي تحتوي على MWES المصنفة يدويا في مجموعة من المعاني المحبوبة بشكل جيد، تمتد من الإنجليزية والبرتغالية. نحن نستخدم هذه البيانات في مهام اثنين مصممة لاختبار I) قدرة نموذج اللغة على الكشف عن استخدام المصطلح، والثاني) فعالية نموذج اللغة في توليد تمثيلات الجمل التي تحتوي على التعريفات التعريفية. توضح تجاربنا أنه، في مهمة الكشف عن الاستخدام الاصطلاعي، تؤدي هذه النماذج بشكل جيد بشكل معقول في السيناريوهات ذات الطابع القليلة، لكن هناك مجالا كبيرا للتحسين في سيناريو الصفر بالرصاص. فيما يتعلق بمهمة التمثيل الاصطلاحية، نجد أن التدريب المسبق ليس فعالا دائما، في حين أن الضبط الدقيق يمكن أن توفر طريقة فعالة للعينة من تمثيلات التعلم للجمل التي تحتوي على mwes.
Despite their success in a variety of NLP tasks, pre-trained language models, due to their heavy reliance on compositionality, fail in effectively capturing the meanings of multiword expressions (MWEs), especially idioms. Therefore, datasets and methods to improve the representation of MWEs are urgently needed. Existing datasets are limited to providing the degree of idiomaticity of expressions along with the literal and, where applicable, (a single) non-literal interpretation of MWEs. This work presents a novel dataset of naturally occurring sentences containing MWEs manually classified into a fine-grained set of meanings, spanning both English and Portuguese. We use this dataset in two tasks designed to test i) a language model's ability to detect idiom usage, and ii) the effectiveness of a language model in generating representations of sentences containing idioms. Our experiments demonstrate that, on the task of detecting idiomatic usage, these models perform reasonably well in the one-shot and few-shot scenarios, but that there is significant scope for improvement in the zero-shot scenario. On the task of representing idiomaticity, we find that pre-training is not always effective, while fine-tuning could provide a sample efficient method of learning representations of sentences containing MWEs.
المراجع المستخدمة
https://aclanthology.org/
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ
نماذج اللغة المحددة مسبقا (PTLMS) تسفر عن الأداء الحديث في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك بناء الجملة والدلالات والعموم.في هذه الورقة، نركز على التعرف على أي مدى تلتقط PTLMS السمات الدلالية وقيمها، على سبيل المثال، الارتباط بين القي
تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة
حققت نماذج اللغة المدربة مسبقا نجاحا كبيرا على مجموعة واسعة من مهام NLP. ومع ذلك، فإن التمثيلات السياقية من النماذج المدربة مسبقا تحتوي على معلومات دلالية ومتنامية متشابكة، وبالتالي لا يمكن استخدامها مباشرة لاستخلاص مدينات جملة دلالية مفيدة لبعض المه