AstitchinlanguageModels: DataSet وطرق الاستكشاف عن الاصطلاحية في نماذج اللغة المدربة مسبقا


الملخص بالعربية

على الرغم من نجاحها في مجموعة متنوعة من مهام NLP، فإن نماذج اللغة المدربة مسبقا، بسبب اعتمادها الشديد على التركيز، تفشل في التقاط بفعالية معاني تعبيرات الكلمات المتعددة (MWES)، وخاصة التعابير. لذلك، هناك حاجة ماسة إلى مجموعات البيانات والأساليب لتحسين تمثيل MWES. تقتصر مجموعات البيانات الحالية على توفير درجة اعتبني التعبيرات مع الترجمة الحرفية، عند الاقتضاء، (واحدة)، ترجمة غير حرفية من MWES. يقدم هذا العمل مجموعة بيانات جديدة من الجمل التي تحدث بشكل طبيعي تحتوي على MWES المصنفة يدويا في مجموعة من المعاني المحبوبة بشكل جيد، تمتد من الإنجليزية والبرتغالية. نحن نستخدم هذه البيانات في مهام اثنين مصممة لاختبار I) قدرة نموذج اللغة على الكشف عن استخدام المصطلح، والثاني) فعالية نموذج اللغة في توليد تمثيلات الجمل التي تحتوي على التعريفات التعريفية. توضح تجاربنا أنه، في مهمة الكشف عن الاستخدام الاصطلاعي، تؤدي هذه النماذج بشكل جيد بشكل معقول في السيناريوهات ذات الطابع القليلة، لكن هناك مجالا كبيرا للتحسين في سيناريو الصفر بالرصاص. فيما يتعلق بمهمة التمثيل الاصطلاحية، نجد أن التدريب المسبق ليس فعالا دائما، في حين أن الضبط الدقيق يمكن أن توفر طريقة فعالة للعينة من تمثيلات التعلم للجمل التي تحتوي على mwes.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث