ترغب بنشر مسار تعليمي؟ اضغط هنا

تظهر أسماء التردد المنخفض التحيز والتجول في نماذج اللغة السياقية

Low Frequency Names Exhibit Bias and Overfitting in Contextualizing Language Models

320   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغالب والأسماء غير البيضاء أقل تواترا في شركة التدريب لهذه النماذج الأربع هذه. نجد أن الأسماء النادرة هي أكثر مماثلة ذاتيا عبر السياقات، مع Rho Spearman بين التردد والتشابه الذاتي بنسبة منخفضة تصل إلى 763. الأسماء النادرة هي أيضا أقل تشبه التمثيل الأولي، مع تشابه RHO ل Spearman بين التردد ومحاذاة النواة الخطية (CKA) للتمثيل الأولي بما يصل إلى .702. علاوة على ذلك، نجد Rho Spearman بين التحيز العنصري وتكرار الاسم في Bert of .492، مما يشير إلى أن أسماء مجموعات الأقليات ذات التردد الأدنى مرتبطون ببراعة. تخضع تمثيل الأسماء النادرة لمعالجة المزيد من المعالجة، ولكنها أكثر مماثلة ذاتيا، مما يشير إلى أن النماذج تعتمد على تمثيل أقل مستنيرة في السياق بأسماء غير شائعة وأسماء الأقليات التي يتم إجاءاتها على عدد أقل من السياقات الملحوظة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي. تحقيقا لهذه الغاية، نقدم مجموعة بيانات ممتدة ومشروحة للإنسان من التشابه بين الكلمة المعززة ومقبولية التعاونية، وتقييم مدى جودة تشابه المضبوط يتوقع التشابه في المعنى. تشير كلا النوعين من الأحكام البشرية إلى أن تشابه تفسيرات البلاثي يسقط في متواصل بين هوية المعنى والمجانسة. ومع ذلك، نلاحظ أيضا اختلافات كبيرة في تصنيفات التشابه من PolySemes، وتشكيل أنماط ثابتة لأنواع مختلفة من بديل الشعور بالسلاسة. وهكذا يبدو أن مجموعة البيانات الخاصة بنا هي التقاط جزء كبير من تعقيد الغموض المعجمي، ويمكن أن توفر سرير اختبار واقعي للمشروعات السياقية. من بين النماذج التي تم اختبارها، تظهر بيرت كبيرة أقوى ارتباطا مع تصنيفات تشابه تشابه الكلمة المجمعة، ولكن النضالات لتكرار أنماط التشابه الملاحظة باستمرار. عند تجميع نماذج كلمات غامضة تستند إلى ادباتهم، يعرض النموذج ثقة عالية في تماثيل متفائل وبعض أنواع بدائل البلاستيك، ولكن يفشل باستمرار للآخرين.
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف ي هذا الاستعراض، نأخذ منظور معالجة لغات طبيعية لهذه القيود، وفحص كيفية معالجةها جزئيا من خلال تدريب نماذج اللغة السياقية العميقة (LMS) لاستيعابها والتعبير عن المعرفة العلاجية بأشكال أكثر مرونة. نقترح تنظيم استراتيجيات تمثيل المعرفة في LMS بواسطة مستوى إشراف KB المقدمة، من أي إشراف KB على الإشراف على مستوى الكيان والعلاقات. مساهماتنا هي ثلاثة أضعاف: (1) نحن نقدم تصنيفا رفيع المستوى، توسع لتمثيل المعرفة في LMS؛ (2) ضمن تصنيفنا، نسلط الضوء على النماذج البارزة ومهام التقييم والنتائج، من أجل تقديم استعراض محدث لقدرات تمثيل المعرفة الحالية في LMS؛ و (3) نقترح اتجاهات البحث في المستقبل التي تبني على الجوانب التكميلية ل LMS و KBS كتمثيل المعرفة.
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى فعالية تميز النصوص النصية فقط في التمييز بين مطابقة العروض المرئية غير المطابقة.تظهر النتائج الخاصة بنا أن تمثيلات اللغة وحدها توفر إشارة قوية لاسترداد تصحيحات الصورة من فئات الكائنات الصحيحة.علاوة على ذلك، فهي فعالة في استرداد حالات محددة من بقع الصور؛يلعب السياق النصي دورا مهما في هذه العملية.نماذج اللغة الترطفة بصريا تتفوق قليلا على نماذج اللغة النصية فقط في حالة استرجاع مثيل، ولكن تحت أداء البشر بشكل كبير.نأمل أن تلهم تحليلاتنا بالبحث في المستقبل في فهم وتحسين القدرات البصرية لنماذج اللغة.
في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا