ترغب بنشر مسار تعليمي؟ اضغط هنا

ديوان وحدات مستدامة للنماذج اللغوية

Sustainable Modular Debiasing of Language Models

137   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التحيزات النمطية غير العادلة (على سبيل المثال، التحيزات الجنسانية أو العنصرية أو الدينية) ترميز نماذج اللغة الحديثة المحددة مسبقا (PLMS) لها آثار أخلاقية سلبية على الاعتماد الواسع النطاق لتكنولوجيا اللغات الحديثة. لعلاج ذلك، تم تقديم مجموعة واسعة من تقنيات المساواة مؤخرا لإزالة هذه التحيزات النمطية من PLMS. ومع ذلك، فإن طرق الدخل الحالية، ومع ذلك، قم بتعديل جميع معلمات PLMS مباشرة، والتي - إلى جانب كونها باهظة الثمن - مع خطر الكامنة من (كارثي) نسيان المعرفة اللغوية المفيدة المكتسبة في الاحتجاج. في هذا العمل، نقترح نهجا أكثر استدامة للدوائر على أساس محولات Deviasing المخصصة، التي دبلها أديل. بشكل ملموس، نحن (1) وحدات محول حقن في طبقات PLM الأصلية و (2) تحديث المحولات فقط (أي ونحن نعرض أديل، في الدخل الجنساني من BERT: تقييمنا الواسع، يشمل ثلاثة تدابير محلية خارجية ومثيرة للخدمة الخارجية، مما يجعل أديل، فعالة للغاية في تخفيف التحيز. نوضح كذلك - نظرا لطبيعتها المعيارية - أديل، إلى جانب محولات المهام، تحتفظ بالإنصاف حتى بعد التدريب على النمو النطاق واسع النطاق. وأخيرا، عن طريق بيرت متعددة اللغات، نجحنا في نقل أديل بنجاح إلى ست لغات مستهدفة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

البنية القياسية المستخدمة في التعليمات التالية غالبا ما تكافح على تركيبات رواية من الفئة (E.G. التنقل إلى المعالم أو التقاط الأشياء) لاحظت أثناء التدريب.نقترح هندسة معيارية لاتباع تعليمات اللغة الطبيعية التي تصف تسلسلات فرعية متنوعة.في نهجنا، فروع ال وحدات الفرعية تنفذ كل تعليمات لغة طبيعية لنوع فرعي محدد.يتم اختيار تسلسل من الوحدات النمطية للتنفيذ عن طريق تعلم تقسيم التعليمات والتنبؤ بنوع فرعي لكل شريحة.بالمقارنة مع أساليب التسلسل القياسية وغير المعيارية إلى التسلسل على Alfred، وهي تعليم صعبة بعد المعيار، نجد أن التجديف يحسن التعميم على التراكيب الفرعية الجديدة، وكذلك في البيئات غير المرئية في التدريب.
تختلف استراتيجيات تحسين جودة التدريب والتنبؤ نماذج التعلم الآلي الأكثر إشرافا ضعيفا في مقدار ما يتم تصميمه إلى مهمة محددة أو متكاملة مع بنية نموذجية معينة. في هذا العمل، نقدم Knodle، وهو إطار برمجي يعامل شروح بيانات ضعيفة، ونماذج التعلم العميق، وطرق تحسين التدريب الخاضع للإشراف على أنه مكونات منفصلة وحديثة. يمنح هذا النزول عملية التدريب الوصول إلى المعلومات المحبوسة الدقيقة مثل خصائص مجموعة البيانات أو تطابقات القواعد المثيرة أو العناصر في نموذج التعلم العميق المستخدم في نهاية المطاف للتنبؤ. وبالتالي، يمكن لإطار عملنا أن يشمل مجموعة واسعة من أساليب التدريب لتحسين الإشراف الضعيف، بدءا من الأساليب التي تنظر فقط إلى ارتباطات القواعد وفئات الإخراج (بشكل مستقل عن نموذج تعلم الجهاز المدرب مع الملصقات الناتجة)، إلى تلك التي تسخير التفاعل من الشبكات العصبية والبيانات المسمى ضعيفة. نوضح الإمكانات القياسية للإطار مع مقارنة أداء العديد من التطبيقات المرجعية بشأن مجموعة مختارة من مجموعات البيانات المتوفرة بالفعل في ترنه.
أظهرت تمثيلات الأرقام المتخصصة في NLP تحسينات على مهام التفكير العددي مثل مشاكل الكلمات الحسابية والتنبؤ بالرقم المحدد. لكن البشر يستخدمون أيضا الحساب لتحسين الشعور بالمفاهيم العالمية، على سبيل المثال، يمكنك مقعد 5 أشخاص في غرفتك "ولكن ليس 500. هل لد يك فهم أفضل للأرقام تحسين فهم النموذج للمفاهيم والكلمات الأخرى؟ تدرس هذه الورقة تأثير استخدام ستة أرقام مختلفة على مهمة التنبؤ بالكلمة الملثمين (MWP)، كوكيل لتقييم معرفة القراءة والكتابة. لدعم هذا التحقيق، نطور Wiki-Convolution، لوحة بيانات 900،000 الجملة المشروحة بأرقام ووحدات، لتجنب حدوث حوادث الأرقام الاسمية والترتيوية. نجد تحسنا كبيرا في MWP للجمل التي تحتوي على أرقام، أن المظلات المتأثرة هي أفضل ترميز أرقام، مما أدى إلى قفزة أكثر من 2 نقطة في دقة التنبؤ عبر خط الأساس بيرت، وأن هذه مهارات محو الأمية المعززة تعميم أيضا إلى السياقات دون أرقام مشروح. نطلق كل الكود في https://git.io/juzxn.
لقد تم استخراج العلاقات عبر مجموعة نصية كبيرة غير مستمدة نسبيا في NLP، لكنه مهم للغاية بالنسبة لمجالات عالية القيمة مثل الطب الحيوي، حيث يكون الحصول على استدعاء عالية من أحدث النتائج أمر حاسم للتطبيقات العملية. بالمقارنة مع استخراج المعلومات التقليدي ة المحصورة على تمديد النص القصير، فإن استخراج العلاقات على مستوى المستند يواجه تحديات إضافية في كل من الاستدلال والتعلم. وبالنظر إلى تمديدات نصية أطول، فإن الهندسة العصبية الحديثة هي الإشراف الذاتي الأقل فعالية ومحددة المهام مثل الإشراف البعيد يصبح صاخبا جدا. في هذه الورقة، نقترح انحلال استخراج العلاقات على مستوى الوثيقة في الدقة المتعلقة بالكشف عن العلاقة والحجة، مما أدى إلى إلهام من دلالات ديفيدسون. تمكننا هذا من دمج نماذج الخطاب الصريحة والاستفادة من الإشراف الذاتي المعياري لكل مشكلة فرعية، وهو أقل عرضة للضوضاء ويمكن أن يكون مزيدا من النهايات المكررة عبر التباين. نقوم بإجراء تقييم شامل في قراءة الآلة الطبية الحيوية لعلم الأورام الدقيقة، حيث تذكر علاقة الفقرة الشاملة سائدة. تتفوق طريقةنا على الدولة السابقة للفن، مثل التعلم متعدد النطاق والشبكات العصبية الرسمية، بأكثر من 20 نقطة F1 المطلقة. وانطبق الربح بشكل خاص بين أكثر حالات العلاقات الأكثر تحديا التي لا تحدث حججها في فقرة.
نقدم بنية سريعة وقابلة للتحجيم تسمى التحلل المعياري الصريح (EMD)، حيث ندمج كل من الأساليب القائمة على التصنيف واستخراج واستخراجها وتصميم أربع وحدات (للحصول على تصنيف التمساح والتسلسل) لاستخراج الدول الحوار بشكل مشترك.النتائج التجريبية المستندة إلى مج موعة بيانات MultiWoz 2.0 تتحقق من تفوق نموذجنا المقترح من حيث التعقيد والقابلية للتوسع عند مقارنتها بالطرق الحديثة، خاصة في سيناريو الحوارات متعددة المجالات المتشابكة مع العديد من المنعطفات من الكلاموبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا