ترغب بنشر مسار تعليمي؟ اضغط هنا

NPVEC1: Word Embeddings للنيبالية - البناء والتقييم

NPVec1: Word Embeddings for Nepali - Construction and Evaluation

199   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص لغات الموارد المنخفضة مثل النيبالية بسبب عدم توفر كوربوس نص كبير.في هذه الورقة، نقدم NPVEC1 والتي تتألف من 25 كلمة نيبالية من النيبالية التي اشتوعناها من كوربوس كبيرة باستخدام القفازات و Word2VEC و FastText و Bert.ونحن نقدم كذلك التقييمات الجوهرية والخارجية لهذه الأشرطة باستخدام مقاييس وأساليب راسخة.يتم تدريب هذه النماذج باستخدام الرموز 279 مليون كلمة وهي أكبر embeddings مدربة على الإطلاق للغة النيبالية.علاوة على ذلك، لقد جعلنا هذه الأشرطة المتاحة للجمهور لتسريع تطوير طلبات معالجة اللغة الطبيعية (NLP) في النيبالية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت جارة لبناء التظليلات المعجمية للتقييم: تظهر تجاربنا أن طرازنا أكثر دقة من التقنيات المعروفة من أدب NLP و IR.أخيرا، نشدد على أهمية كفاءة البيانات للبحث عن المنتج خارج عمالقة البيع بالتجزئة، وتسليط الضوء على كيفية تناسب Query2Prod2VEC قيودا عملية التي يواجهها معظم الممارسين.
تحديد العلاقات بين المؤلفين بين المؤلفين ذات أهمية مركزية لدراسة الأدبيات. نقوم بالإبلاغ عن تحليل تجريبي بين التقاطعات التعليمية في الأدبيات اللاتينية الكلاسيكية باستخدام نماذج تضمين كلمة. لتمكين التقييم الكمي لطرق البحث Intertextuxucture، نرفع مجموع ة بيانات جديدة من 945 موازية معروفة تم رسمها من المنحة التقليدية على الشعر الملحمي اللاتيني. نقوم بتدريب نموذج Word2VEC الأمثل على كائن كبير من اللاتينية Lemmatized، والذي يحقق أداء حديثة للكشف عن المرادف والتفوق بطريقة معجمية تستخدم على نطاق واسع للبحث Intertextual. ثم نوضح بعد ذلك أن تضمينات التدريب في كورسيا الصغيرة جدا يمكن أن تلتقط الجوانب البارزة للأسلوب الأدبي وتطبيق هذا النهج على تكرار دراسة Intertextual السابقة ل Livy المؤرخ الروماني، والتي اعتمدت على ميزات أنالومترية يدوية باليد. تقدم نتائجنا تطوير الموارد الحسابية الأساسية لغلق رئيسي رئيسي وتسليط الضوء على شارع إنتاجي للتعاون متعدد التخصصات بين دراسة الأدب و NLP.
نقدم نهجا جديدا لتجانس وتحسين جودة Adgeddings Word.نحن نعتبر طريقة لتدبير تضمين كلمة تم تدريبها على نفس الكملات ولكن مع تهيئة مختلفة.نقوم بتعريف جميع النماذج إلى مساحة متجهية مشتركة باستخدام تطبيق فعال لإجراءات تحليل Scristes (GPA) المعمم (GPA)، تستخ دم سابقا في ترجمة Word متعددة اللغات.يوضح تمثيل الكلمات لدينا تحسينات متسقة على النماذج الأولية وكذلك متوسطها التبسيط، على مجموعة من المهام.نظرا لأن التمثيلات الجديدة أكثر استقرارا وموثوقة، فهناك تحسن ملحوظ في تقييمات كلمة نادرة.
من المعروف أن تمثيلات اللغة تحمل تحيزات نمطية ونتيجة لذلك، تؤدي إلى تنبؤات متحيزة في مهام المصب.في حين أن الطرق الحالية فعالة في التحيزات المخفئ عن طريق الإسقاط الخطي، فإن هذه الأساليب عدوانية للغاية: لا تزيل التحيز فقط، ولكن أيضا محو المعلومات القيم ة من Word Adgeddings.نقوم بتطوير تدابير جديدة لتقييم الاحتفاظ بالمعلومات المحددة التي توضح مفاضلة بين إزالة التحيز والاحتفاظ بالمعلومات.لمعالجة هذا التحدي، نقترح أوسكار (تصحيح الفضاء الفرعي المتعامد والتصحيح)، وهي طريقة تخفيف التحيز التي تركز على تحطيم الجمعيات المتحيزة بين المفاهيم بدلا من إزالة المفاهيم بالجملة.تشير تجاربنا في التحيزات بين الجنسين إلى أن أوسكار هو نهج متوازن جيدا يضمن أن يتم الاحتفاظ بالمعلومات الدلالية في المدينات والتحيز بشكل فعال.
اكتشاف التغيير الدلالي المعجمي في مجموعات بيانات أصغر، على سبيل المثالفي اللغويات التاريخية والعلوم الإنسانية الرقمية، تحديا بسبب نقص القوة الإحصائية.يتم تفاقم هذه المشكلة عن طريق نماذج التضمين غير السياقية التي تنتج واحدة من التضمين لكل كلمة، وبالتا لي، قم بإخفاء التباين الحاضر في البيانات.في هذه المقالة، نقترح نهجا لتقدير التحول الدلالي من خلال الجمع بين تضمين الكلمات السياقية مع الاختبارات الإحصائية القائمة على التقاطات.نحن نستخدم إجراء معدل الاكتشاف الخاطئ لمعالجة العدد الكبير من اختبارات الفرضيات التي يجري تنفيذها في وقت واحد.نوضح أداء هذا النهج في المحاكاة حيث تحقق بدقة عالية باستمرار عن طريق قمع إيجابيات كاذبة.كلفنا تحليل بيانات العالم الحقيقي من مهمة Semeval-2020 1 و Liverpool FC SubRedDit Corpus.نظرا لأنه من خلال أخذ التباين العينة في الاعتبار، يمكننا تحسين متانة تقديرات التحول الدلالي الفردي دون مهينة الأداء العام.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا