في السنوات القليلة الماضية، تم اقتراح العديد من الطرق لبناء تضمين التوطين.كان الهدف العام هو الحصول على تمثيلات جديدة تدمج المعرفة التكميلية من مختلف المدينات المدربة مسبقا مما يؤدي إلى تحسين الجودة الشاملة.ومع ذلك، تم تقييم Enterpaintings Meta-embeddings السابق باستخدام مجموعة متنوعة من الأساليب ومجموعات البيانات، مما يجعل من الصعب استخلاص استنتاجات ذات مغزى بشأن مزايا كل منهج.في هذه الورقة نقترح إطارا مشتركا موحدا، بما في ذلك المهام الجوهرية والخارجية، من أجل تقييم عادل وموضوعي لتقييم التوطين.علاوة على ذلك، نقدم طريقة جديدة لتوليد تضمين التوطين، مما يفوقن العمل السابق على عدد كبير من معايير التقييم الجوهرية.كما يتيح لنا إطار التقييم أن نستنتج أن التقييمات الخارجية السابقة للمضفة المتمثلة في المبالغة في تقديرها.
In the last few years, several methods have been proposed to build meta-embeddings. The general aim was to obtain new representations integrating complementary knowledge from different source pre-trained embeddings thereby improving their overall quality. However, previous meta-embeddings have been evaluated using a variety of methods and datasets, which makes it difficult to draw meaningful conclusions regarding the merits of each approach. In this paper we propose a unified common framework, including both intrinsic and extrinsic tasks, for a fair and objective meta-embeddings evaluation. Furthermore, we present a new method to generate meta-embeddings, outperforming previous work on a large number of intrinsic evaluation benchmarks. Our evaluation framework also allows us to conclude that previous extrinsic evaluations of meta-embeddings have been overestimated.
المراجع المستخدمة
https://aclanthology.org/
أدت إدخال مذكرات الكلمات المحول المستندة إلى المحولات المدربين مسبقا إلى تحسينات كبيرة في دقة المحللين المستندة إلى الرسم البياني للأطر مثل التبعيات العالمية (UD). ومع ذلك، يختلف الأمر السابق في الأبعاد المختلفة، بما في ذلك اختيارهم لنماذج اللغة المد
حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات
يلخص الحوار يساعد القراء على التقاط المعلومات البارزة من محادثات طويلة في الاجتماعات والمقابلات والمسلسلات التلفزيونية. ومع ذلك، فإن حوالات العالم الحقيقي تشكل تحديا كبيرا لنماذج التلخيص الحالية، حيث يتجاوز طول الحوار عادة حدود المدخلات التي تفرضها ا
الكشف عن اللغة المسيئة هو حقل ناشئ في معالجة اللغة الطبيعية تلقت قدرا كبيرا من الاهتمام مؤخرا.لا يزال نجاح الكشف التلقائي محدود.لا سيما، كشف اللغة المسيئة ضمنيا، أي لغة مسيئة لا تنقلها كلمات مسيئة (مثل dumbass أو حثالة)، لا تعمل بشكل جيد.في هذه الورق
تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحي