ترغب بنشر مسار تعليمي؟ اضغط هنا

أنماط Polysemy ومجتمعة في نماذج اللغة السياقية

Patterns of Polysemy and Homonymy in Contextualised Language Models

244   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي. تحقيقا لهذه الغاية، نقدم مجموعة بيانات ممتدة ومشروحة للإنسان من التشابه بين الكلمة المعززة ومقبولية التعاونية، وتقييم مدى جودة تشابه المضبوط يتوقع التشابه في المعنى. تشير كلا النوعين من الأحكام البشرية إلى أن تشابه تفسيرات البلاثي يسقط في متواصل بين هوية المعنى والمجانسة. ومع ذلك، نلاحظ أيضا اختلافات كبيرة في تصنيفات التشابه من PolySemes، وتشكيل أنماط ثابتة لأنواع مختلفة من بديل الشعور بالسلاسة. وهكذا يبدو أن مجموعة البيانات الخاصة بنا هي التقاط جزء كبير من تعقيد الغموض المعجمي، ويمكن أن توفر سرير اختبار واقعي للمشروعات السياقية. من بين النماذج التي تم اختبارها، تظهر بيرت كبيرة أقوى ارتباطا مع تصنيفات تشابه تشابه الكلمة المجمعة، ولكن النضالات لتكرار أنماط التشابه الملاحظة باستمرار. عند تجميع نماذج كلمات غامضة تستند إلى ادباتهم، يعرض النموذج ثقة عالية في تماثيل متفائل وبعض أنواع بدائل البلاستيك، ولكن يفشل باستمرار للآخرين.

المراجع المستخدمة
https://aclanthology.org/

قيم البحث

اقرأ أيضاً

تقرر ما إذا كانت كلمة غامضة من الناحية الدلوية مجهبة أو polysemous تعادل إنشاء ما إذا كان لديه أي زوج من الحواس غير المرتبط بهليا.نقدم طرق جديدة لهذه المهمة التي تستفيد من المعلومات من الموارد المعجمية متعددة اللغات.نحن نثبت رسميا الخصائص النظرية الت ي توفر الأساس لأساليبنا.على وجه الخصوص، نوضح كيف يتبعه المراسل المركزي لكل فرضية للترجمة في Hauer و Kondrak (2020A) من خصائص Synet التي صاغها Hauer و Kondrak (2020B).يوضح التقييم التجريبي أن نهجنا يحدد حالة من الفن الجديد للكشف الجنسي.
نقترح طريقة رواية من التمييز المجنس - Polysemy لثلاثة لغات الهند الهندية (الإنجليزية والإسبانية والبولندية).تم استخدام آلات Vector Support واستخدام الانحدار اللوجستي لاسو بنجاح في هذه المهمة، مما يتفوق على الأساس.تم استخدام مجموعة الميزات خصائص Lemma وأشابه لمعان ومسافات الرسم البياني وأنماط Polysemy.تؤدي نماذج ML المقترحة بشكل جيد على قدم المساواة باللغة الإنجليزية واللغتين الأخرى (تشكل مجموعات بيانات الاختبار).لا استبعدت الخوارزميات معظم حالات شنيعها فحسب، بل كانت أيضا فعالة في التمييز بين الدوران الدلالي الوثيق وغير المباشر.
نقدم مبادرة Norlm المستمرة لدعم إنشاء واستخدام نماذج اللغة السياقية الكبيرة للغاية للنرويجية (ومن حيث المبدأ لغات الشمال الأخرى)، بما في ذلك بيئة برنامج جاهزة للاستخدام، بالإضافة إلى تقرير خبرة لإعداد البيانات والتدريبوبعدتقدم هذه الورقة أول نماذج لغ وية واسعة النطاق للنرويجية، استنادا إلى كل من أطر ELMO و BERT.بالإضافة إلى تفصيل عملية التدريب، نقدم نتائج مرجعية للتناقض على مجموعة من مهام NLP للنرويجية.للحصول على خلفية إضافية والوصول إلى البيانات والنماذج والبرامج، يرجى الاطلاع على: http://norlm.nlpl.eu
نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغا لب والأسماء غير البيضاء أقل تواترا في شركة التدريب لهذه النماذج الأربع هذه. نجد أن الأسماء النادرة هي أكثر مماثلة ذاتيا عبر السياقات، مع Rho Spearman بين التردد والتشابه الذاتي بنسبة منخفضة تصل إلى 763. الأسماء النادرة هي أيضا أقل تشبه التمثيل الأولي، مع تشابه RHO ل Spearman بين التردد ومحاذاة النواة الخطية (CKA) للتمثيل الأولي بما يصل إلى .702. علاوة على ذلك، نجد Rho Spearman بين التحيز العنصري وتكرار الاسم في Bert of .492، مما يشير إلى أن أسماء مجموعات الأقليات ذات التردد الأدنى مرتبطون ببراعة. تخضع تمثيل الأسماء النادرة لمعالجة المزيد من المعالجة، ولكنها أكثر مماثلة ذاتيا، مما يشير إلى أن النماذج تعتمد على تمثيل أقل مستنيرة في السياق بأسماء غير شائعة وأسماء الأقليات التي يتم إجاءاتها على عدد أقل من السياقات الملحوظة.
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف ي هذا الاستعراض، نأخذ منظور معالجة لغات طبيعية لهذه القيود، وفحص كيفية معالجةها جزئيا من خلال تدريب نماذج اللغة السياقية العميقة (LMS) لاستيعابها والتعبير عن المعرفة العلاجية بأشكال أكثر مرونة. نقترح تنظيم استراتيجيات تمثيل المعرفة في LMS بواسطة مستوى إشراف KB المقدمة، من أي إشراف KB على الإشراف على مستوى الكيان والعلاقات. مساهماتنا هي ثلاثة أضعاف: (1) نحن نقدم تصنيفا رفيع المستوى، توسع لتمثيل المعرفة في LMS؛ (2) ضمن تصنيفنا، نسلط الضوء على النماذج البارزة ومهام التقييم والنتائج، من أجل تقديم استعراض محدث لقدرات تمثيل المعرفة الحالية في LMS؛ و (3) نقترح اتجاهات البحث في المستقبل التي تبني على الجوانب التكميلية ل LMS و KBS كتمثيل المعرفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا