AM2ICO: تقييم معنى الكلمات في السياق عبر لغات الموارد المنخفضة مع أمثلة الخصومة


الملخص بالعربية

إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على وجه الخصوص، 1) تقتصر تغطيتها اللغوية على لغات الموارد العالية والانحساج لصالح سوى عدد قليل من الأسر والمناطق اللغوية، 2) تصميم يجعل المهمة قابلة للحل عبر الإشارات السطحية، والتي تؤدي إلى تضخم بشكل مصطنع (وأحيانا سوبر -Human) عروض التشفير المحددين، و 3) لا يوجد دعم للتقييم المتبادل اللغوي. من أجل معالجة هذه الثغرات، نقدم AM2ICO (المعنى الخصومة والتعدد اللغات في السياق)، مجموعة التقييم الواسع التغطية واللغات متعددة اللغات؛ يهدف إلى تقييم إدراج قدرة نماذج التمثيل الحديثة (SOTA) لفهم هوية معنى الكلمات في السياقات المتبادلة لمدة 14 أزواج لغوية. نقوم بإجراء سلسلة من التجارب في مجموعة واسعة من الإعدادات وإظهار الطبيعة الصعبة ل AM2ICO. تكشف النتائج أن تشفير سوتا الحالية التي يتعامل معها يتخلف بشكل كبير وراء الأداء البشري، ويتم ملاحظة أكبر فجوات لغات الموارد المنخفضة ولغات مختلفة عن اللغة الإنجليزية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث