ترغب بنشر مسار تعليمي؟ اضغط هنا

كلمة Syntagmatic Word Tembedings للتعلم غير المزعوم للتفضيلات التفضيلية

Syntagmatic Word Embeddings for Unsupervised Learning of Selectional Preferences

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يلتقط التفضيلات التجريبية (SP) إلى ميل كلمة لإجراء كلمات أخرى بشكل صحيح لتكون في العلاقة النحوية المباشرة معها، وبالتالي تبلغنا عن تكوينات الكلمات الأساسية التي هي ذات معنى. لذلك SP هو مورد قيمة لأنظمة معالجة اللغة الطبيعية (NLP) ولتكل الأسلاك. تعتبر التعلم SP عموما بمثابة مهمة خاضعة للإشراف، لأنها تتطلب جثة محاطة كمصدر لأزواج الكلمات ذات الصلة بمجرد. في هذه الورقة نظهر أن التحليل التوزيعي البسيط يمكن أن يتعلم كمية جيدة من SP دون الحاجة إلى كائن مشروح. نحن نقوم بتوسيع تقنية تضمين الكلمة العامة مع ويندوز سياق كلمة الاتجاهات لإعطاء تمثيلات الكلمات التي تلتقط العلاقات التجميعية بشكل أفضل. نقوم باختبار مجموعة بيانات SP-10K وإظهار أن تضمين التضمين الجزيئي تتفوق على الأدوات النموذجية. نقوم أيضا بتقييم النسخة الخاضعة للإشراف من هذه المدينات وإظهار أن المدينات التجميعية غير الخاضعة للكشف يمكن أن تكون جيدة مثل المضبوطات الخاضعة للإشراف. نحن نوفر أيضا شفرة المصدر لتنفيذنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت جارة لبناء التظليلات المعجمية للتقييم: تظهر تجاربنا أن طرازنا أكثر دقة من التقنيات المعروفة من أدب NLP و IR.أخيرا، نشدد على أهمية كفاءة البيانات للبحث عن المنتج خارج عمالقة البيع بالتجزئة، وتسليط الضوء على كيفية تناسب Query2Prod2VEC قيودا عملية التي يواجهها معظم الممارسين.
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل توصل إلى ذلك. علاوة على ذلك، في إعداد التعلم الإشراف ضعيف، ليس لدينا أي وثيقة مسمى لقياس فعالية كلمات البذور، مما يجعل عملية اختيار كلمة البذور المشي في الظلام ". في هذا العمل، نقوم بإزالة الحاجة إلى كلمات البذور التي يديرها الخبراء من قبل كلمات البذور المرشحة الأولى (صاخبة) المرتبطة بأسماء الفئات. ثم تدريب نماذج مؤقتة بكلمات البذور المرشحة الفردية. أخيرا، نقدر معدل خطأ النماذج المؤقتة بطريقة غير منشأة. تتم إضافة كلمات البذور التي تسفر عن أدنى معدلات الخطأ المقدرة إلى مجموعة كلمات البذور النهائية. يوضح تقييم شامل لستة مهام التصنيف الثنائية على أربع مجموعات بيانات شائعة أن الطريقة المقترحة تتفوق على خط أساس باستخدام كلمات البذور اسم الفئة فقط والحصول على أداء مماثل كظرف باستخدام كلمات البذور المشروح من الخبراء.
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص لغات الموارد المنخفضة مثل النيبالية بسبب عدم توفر كوربوس نص كبير.في هذه الورقة، نقدم NPVEC1 والتي تتألف من 25 كلمة نيبالية من النيبالية التي اشتوعناها من كوربوس كبيرة باستخدام القفازات و Word2VEC و FastText و Bert.ونحن نقدم كذلك التقييمات الجوهرية والخارجية لهذه الأشرطة باستخدام مقاييس وأساليب راسخة.يتم تدريب هذه النماذج باستخدام الرموز 279 مليون كلمة وهي أكبر embeddings مدربة على الإطلاق للغة النيبالية.علاوة على ذلك، لقد جعلنا هذه الأشرطة المتاحة للجمهور لتسريع تطوير طلبات معالجة اللغة الطبيعية (NLP) في النيبالية.
تقييم جودة الردود الناتجة عن أنظمة محادثة المجال المفتوحة هي مهمة صعبة. هذا جزئيا لأنه يمكن أن يكون هناك العديد من الردود المناسبة لتاريخ حوار معين. غالبا ما تفشل المقاييس المرجعية التي تعتمد على مقارنات إلى مجموعة من الاستجابات الصحيحة المعروفة في ح ساب هذا التنوع، وبالتالي ربط سيئة مع الحكم البشري. لمعالجة هذه المشكلة، قام الباحثون بالتحقيق في إمكانية تقييم جودة الاستجابة دون استخدام مجموعة من الردود الصحيحة المعروفة. أظهر روبر أنه يمكن إجراء نموذج تقييم الاستجابة التلقائي باستخدام التعلم غير المزعوم لمهمة التنبؤ بالكلام التالي (NUP). بالنسبة للتعلم غير المقترح لهذا النموذج، نقترح طريقة التلاعب بالاستجابة الذهبية لإنشاء استجابة سلبية جديدة تم تصميمها لتكون غير مناسب في السياق مع الحفاظ على التشابه العالي مع الاستجابة الذهبية الأصلية. نجد، من تجاربنا في مجموعات البيانات الإنجليزية، التي تستخدم العينات السلبية التي تم إنشاؤها بواسطة طريقتنا إلى جانب العينات السلبية العشوائية يمكن أن تزيد من ارتباط النموذج بالتقييمات البشرية. عملية توليد هذه العينات السلبية مؤتمتة ولا تعتمد على شرح الإنسان.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا