ترغب بنشر مسار تعليمي؟ اضغط هنا

التغلب على Adveddings كلمة سيئة مع تعريفات الكلمات

Overcoming Poor Word Embeddings with Word Definitions

448   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدلال اللغوية الطبيعية.ثم نستكشف كيف يمكن أن يتعلم نموذج التعريفات، المقدمة في النص الطبيعي، للتغلب على هذا الإعاقة.عادة ما يكون فهم النموذج الخاص بتعريف ضعيفا أكثر أضعف من تضمين كلمة مصممة بشكل جيد، لكنه يستعيد معظم فجوة الأداء من استخدام كلمة غير مدربة تماما.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت نماذج التسلسل العصبي (SEQ2SEQ) ونماذج بيرت تحسينات كبيرة في تلخيص وثائق المبادرة (الإعلانات) دون ومع مسبق التدريب، على التوالي.ومع ذلك، فإنهم يحضرون في بعض الأحيان مرارا وتكرارا عبارات المصدر غير مهم بينما يتجاهل عن طريق الخطأ تلك المهمة.نقدم آل يات إعادة الإعمار على مستويين لتخفيف هذه المشكلة.يعيد إعادة تعيين مستوى التسلسل على مستوى التسلسل الوثيقة بأكملها من الطبقة المخفية من الملخص المستهدف، في حين أن كلمة تضمين المستوى يعيد إعادة إنشاء واحد من متوسط كلمة Word للمصدر في الجانب المستهدف لضمان إدراج أكبر قدر ممكن من المعلومات الهامة في الملخصبقدر الإمكان.بناء على افتراض تقيس تدابير تردد الوثيقة العكسية (IDF) مدى أهمية كلمة كلمة، فإننا نستفيد إلى زيادة أوزان جيش الدفاع الإسرائيلي في إعادة بناء مستوى التضمين لدينا.تؤدي الأطر المقترحة إلى تحسينات واعدة لمقاييس الحمر والتصنيف البشري على مجموعات بيانات تلخيص CNN / Daily البريدية وحكم الأخبار.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.
تحدد محاذاة Word المراسلات المتعلقة بالمراسلات بين الكلمات في زوج جملة متوازية وتستخدم ومثالا وتدريب الترجمة ذات الجهاز الإحصائي وتعلم قواميس ثنائية اللغة أو لأداء تقدير الجودة.أصبح Totkenization في الكلمات الفرعية خطوة مسبقة مسبق لمعاييرها لعدد كبير من التطبيقات وخاصة أنظمة الترجمة الآلية المفتوحة لمفردات الأحدث.في هذه الورقة، ندرس تماما كيف تتفاعل هذه الخطوة المعالجة مسبقا مع مهمة محاذاة الكلمة واقتراح عدة استراتيجيات التكوين للحصول على كورسا موازية مجزأة جيدا.باستخدام هذه التقنيات الجديدة وتمكنا من تحسين نماذج المحاذاة القائمة على الكلمات الأساسية لستة أزواج لغوية.
تقدم هذه الورقة وصف نظام فريق المحور، الذي يفسر العمل ذي الصلة والنتائج التجريبية لمشاركة فريقنا في مهمة Semeval 2021: الغموض المتعدد اللغات والتبلغة في السياق (MCL-WIC). بيانات هذه المهمة المشتركة هي أساسا بعض الزوجات الزوجية عبر اللغة أو متعددة الل غات. اللغات المشمولة في Corpus تشمل اللغة الإنجليزية والصينية والفرنسية والروسية والعربية. الهدف المهمة هو الحكم على ما إذا كانت الكلمات نفسها في أزواج هذه الجملة لها نفس المعنى في الجملة. يمكن اعتبار ذلك مهمة التصنيف الثنائي لأزواج الجملة. ما نحتاج إليه هو استخدام طريقتنا لتحديد بدقة قدر الإمكان معنى الكلمات في زوج الجملة هي نفسها أو مختلفة. يتكون النموذج المستخدم من قبل فريقنا بشكل أساسي من خوارزميات روبرتا و TF-IDF. مؤشر تقييم النتائج لتقديم المهمة هو درجة F1. شاركنا فقط في مهمة اللغة الإنجليزية. وكانت النتيجة النهائية لنتائج التنبؤ بمجموعة الاختبار المقدمة من فريقنا 84.60.
الغاية من هذا البحث بناء نظام لتصنيف نطق الأرقام الانكليزية وذلك بالاعتماد على نماذج ماركوف المخفية في التصنيف وذلك بالاعتماد على طيف الإشارة في استخراج سمات الإشارات

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا