تجميع الكلمات مع التنوع الدلالي


الملخص بالعربية

يمكن أن تكون أنظمة NLP المستندة إلى التعلم العميق حساسة للرموز غير المرئية ويصعب التعلم مع المدخلات عالية الأبعاد التي تعيق التعلم بشكل خطير.نقدم نهجا من خلال تجميع كلمات الإدخال على أساس التنوع الدلالي الخاص بهم لتبسيط تمثيل لغة الإدخال مع غموض منخفض.نظرا لأن الكلمات المتنوعة الدلوية موجودة في سياقات مختلفة، فإننا قادرون على استبدال الكلمات مع مجموعاتهم وما زالت تميز معاني الكلمة التي تعتمد على سياقاتها.نقوم بتصميم العديد من الخوارزميات التي تحسب تجمعات متنوعة تستند إلى أخذ العينات العشوائية، مسافات هندسية، وتعظيم انتروبيا، ونثبت ضمانات رسمية للخوارزميات القائمة على الانتروبوي.تظهر النتائج التجريبية أن أساليبنا تعمم طرازات NLP وإظهار الدقة المعززة على وضع علامات نقاط البيع ومهام LM وتحسينات كبيرة على مهام الترجمة الآلية المتوسطة الحجم، ما يصل إلى +6.5 نقطة بلو.يتوفر شفرة المصدر لدينا في https://github.com/abdulrafae/dg.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث