ترغب بنشر مسار تعليمي؟ اضغط هنا

إحصائيا الكشف عن التحولات الدلالية باستخدام Auttental Word Embeddings

Statistically Significant Detection of Semantic Shifts using Contextual Word Embeddings

282   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتالي، قم بإخفاء التباين الحاضر في البيانات.في هذه المقالة، نقترح نهجا لتقدير التحول الدلالي من خلال الجمع بين تضمين الكلمات السياقية مع الاختبارات الإحصائية القائمة على التقاطات.نحن نستخدم إجراء معدل الاكتشاف الخاطئ لمعالجة العدد الكبير من اختبارات الفرضيات التي يجري تنفيذها في وقت واحد.نوضح أداء هذا النهج في المحاكاة حيث تحقق بدقة عالية باستمرار عن طريق قمع إيجابيات كاذبة.كلفنا تحليل بيانات العالم الحقيقي من مهمة Semeval-2020 1 و Liverpool FC SubRedDit Corpus.نظرا لأنه من خلال أخذ التباين العينة في الاعتبار، يمكننا تحسين متانة تقديرات التحول الدلالي الفردي دون مهينة الأداء العام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحديد العلاقات بين المؤلفين بين المؤلفين ذات أهمية مركزية لدراسة الأدبيات. نقوم بالإبلاغ عن تحليل تجريبي بين التقاطعات التعليمية في الأدبيات اللاتينية الكلاسيكية باستخدام نماذج تضمين كلمة. لتمكين التقييم الكمي لطرق البحث Intertextuxucture، نرفع مجموع ة بيانات جديدة من 945 موازية معروفة تم رسمها من المنحة التقليدية على الشعر الملحمي اللاتيني. نقوم بتدريب نموذج Word2VEC الأمثل على كائن كبير من اللاتينية Lemmatized، والذي يحقق أداء حديثة للكشف عن المرادف والتفوق بطريقة معجمية تستخدم على نطاق واسع للبحث Intertextual. ثم نوضح بعد ذلك أن تضمينات التدريب في كورسيا الصغيرة جدا يمكن أن تلتقط الجوانب البارزة للأسلوب الأدبي وتطبيق هذا النهج على تكرار دراسة Intertextual السابقة ل Livy المؤرخ الروماني، والتي اعتمدت على ميزات أنالومترية يدوية باليد. تقدم نتائجنا تطوير الموارد الحسابية الأساسية لغلق رئيسي رئيسي وتسليط الضوء على شارع إنتاجي للتعاون متعدد التخصصات بين دراسة الأدب و NLP.
نقدم نهجا جديدا لتجانس وتحسين جودة Adgeddings Word.نحن نعتبر طريقة لتدبير تضمين كلمة تم تدريبها على نفس الكملات ولكن مع تهيئة مختلفة.نقوم بتعريف جميع النماذج إلى مساحة متجهية مشتركة باستخدام تطبيق فعال لإجراءات تحليل Scristes (GPA) المعمم (GPA)، تستخ دم سابقا في ترجمة Word متعددة اللغات.يوضح تمثيل الكلمات لدينا تحسينات متسقة على النماذج الأولية وكذلك متوسطها التبسيط، على مجموعة من المهام.نظرا لأن التمثيلات الجديدة أكثر استقرارا وموثوقة، فهناك تحسن ملحوظ في تقييمات كلمة نادرة.
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت جارة لبناء التظليلات المعجمية للتقييم: تظهر تجاربنا أن طرازنا أكثر دقة من التقنيات المعروفة من أدب NLP و IR.أخيرا، نشدد على أهمية كفاءة البيانات للبحث عن المنتج خارج عمالقة البيع بالتجزئة، وتسليط الضوء على كيفية تناسب Query2Prod2VEC قيودا عملية التي يواجهها معظم الممارسين.
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص لغات الموارد المنخفضة مثل النيبالية بسبب عدم توفر كوربوس نص كبير.في هذه الورقة، نقدم NPVEC1 والتي تتألف من 25 كلمة نيبالية من النيبالية التي اشتوعناها من كوربوس كبيرة باستخدام القفازات و Word2VEC و FastText و Bert.ونحن نقدم كذلك التقييمات الجوهرية والخارجية لهذه الأشرطة باستخدام مقاييس وأساليب راسخة.يتم تدريب هذه النماذج باستخدام الرموز 279 مليون كلمة وهي أكبر embeddings مدربة على الإطلاق للغة النيبالية.علاوة على ذلك، لقد جعلنا هذه الأشرطة المتاحة للجمهور لتسريع تطوير طلبات معالجة اللغة الطبيعية (NLP) في النيبالية.
في حين أن إنتاج المعلومات في الفترة الحديثة الأوروبية المبكرة هو موضوع بحثي جيدا، فإن السؤال كيف كان الناس يشاركون مع انفجار المعلومات الذي حدث في أوروبا الحديثة المبكرة، لا يزال غير مقصود. تقدم هذه الورقة التعليقات التوضيحية والتجارب التي تهدف إلى ا ستكشاف ما إذا كان بإمكاننا استخراج المعلومات ذات الصلة بالوسائط (المصدر، والإدراك، والمستقبل) من جثة من سجلات هولندية حديثة مبكرة من أجل الحصول على نظرة ثاقبة في وسائل الإعلام من أفراد الطبقة الوسطى الحديثة المبكرة من منظور تاريخي. في عدد من تجارب التصنيف مع الحقول العشوائية الشرطية، يتم اختبار ثلاث فئات من الميزات: (1) ميزات تضمين Word RAW و Binary، (II) ميزات المعجم، و (III) ميزات الأحرف. بشكل عام، يؤدي المصنف الذي يستخدم embeddings الخام أفضل قليلا. ومع ذلك، بالنظر إلى أن أفضل درجات F حوالي 0.60، نستنتج أن نهج التعلم الآلي يجب الجمع بين نهج قراءة وثيق للنتائج مفيدة للإجابة على أسئلة بحث التاريخ.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا