اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتالي، قم بإخفاء التباين الحاضر في البيانات.في هذه المقالة، نقترح نهجا لتقدير التحول الدلالي من خلال الجمع بين تضمين الكلمات السياقية مع الاختبارات الإحصائية القائمة على التقاطات.نحن نستخدم إجراء معدل الاكتشاف الخاطئ لمعالجة العدد الكبير من اختبارات الفرضيات التي يجري تنفيذها في وقت واحد.نوضح أداء هذا النهج في المحاكاة حيث تحقق بدقة عالية باستمرار عن طريق قمع إيجابيات كاذبة.كلفنا تحليل بيانات العالم الحقيقي من مهمة Semeval-2020 1 و Liverpool FC SubRedDit Corpus.نظرا لأنه من خلال أخذ التباين العينة في الاعتبار، يمكننا تحسين متانة تقديرات التحول الدلالي الفردي دون مهينة الأداء العام.
Detecting lexical semantic change in smaller data sets, e.g. in historical linguistics and digital humanities, is challenging due to a lack of statistical power. This issue is exacerbated by non-contextual embedding models that produce one embedding per word and, therefore, mask the variability present in the data. In this article, we propose an approach to estimate semantic shift by combining contextual word embeddings with permutation-based statistical tests. We use the false discovery rate procedure to address the large number of hypothesis tests being conducted simultaneously. We demonstrate the performance of this approach in simulation where it achieves consistently high precision by suppressing false positives. We additionally analyze real-world data from SemEval-2020 Task 1 and the Liverpool FC subreddit corpus. We show that by taking sample variation into account, we can improve the robustness of individual semantic shift estimates without degrading overall performance.
المراجع المستخدمة
https://aclanthology.org/
تحديد العلاقات بين المؤلفين بين المؤلفين ذات أهمية مركزية لدراسة الأدبيات. نقوم بالإبلاغ عن تحليل تجريبي بين التقاطعات التعليمية في الأدبيات اللاتينية الكلاسيكية باستخدام نماذج تضمين كلمة. لتمكين التقييم الكمي لطرق البحث Intertextuxucture، نرفع مجموع
نقدم نهجا جديدا لتجانس وتحسين جودة Adgeddings Word.نحن نعتبر طريقة لتدبير تضمين كلمة تم تدريبها على نفس الكملات ولكن مع تهيئة مختلفة.نقوم بتعريف جميع النماذج إلى مساحة متجهية مشتركة باستخدام تطبيق فعال لإجراءات تحليل Scristes (GPA) المعمم (GPA)، تستخ
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص
في حين أن إنتاج المعلومات في الفترة الحديثة الأوروبية المبكرة هو موضوع بحثي جيدا، فإن السؤال كيف كان الناس يشاركون مع انفجار المعلومات الذي حدث في أوروبا الحديثة المبكرة، لا يزال غير مقصود. تقدم هذه الورقة التعليقات التوضيحية والتجارب التي تهدف إلى ا