ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد البيانات المعززة بين الجنسين ل NLP

Generating Gender Augmented Data for NLP

159   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التحيز بين الجنسين هو حدوث متكرر في التطبيقات القائمة على البرامج الوطنية للتنمية الوطنية، وخاصة وضوحا باللغات التي يتم تنشيطها بين الجنسين. يمكن أن تظهر التحيز من خلال جمعيات بعض الصفات وتحريك الأسماء مع الجنس الطبيعي للإرازات، ولكن أيضا بسبب الترددات الجنسانية النحوية غير الموازنة من الكلمات المصدرة. يصبح هذا النوع من التحيز أكثر وضوحا في توليد ينصوصات التحدث حيث لا يتم تحديد النوع الاجتماعي داخل الجملة، لأن معظم تطبيقات NLP الحالية لا تزال تعمل على سياق مستوى الجملة. كخطوة نحو NLP أكثر شمولية، تقترح هذه الورقة نهجا تلقائيا وعموما إعادة كتابة جمل محادثة قصيرة. يمكن تطبيق طريقة إعادة كتابة على الجمل التي، دون سياق خارجي، لديها بدائل مكافئة متعددة من حيث الجنس. يمكن تطبيق الطريقة على إنشاء مخرجات متوازنة بين الجنسين وكذلك لإنشاء بيانات تدريب متوازنة بين الجنسين. يعتمد النهج المقترح على نظام ترجمة آلية عصبية مدربة على ترجمة "من نوع جنسي إلى آخر. إظهار كل من التحليل الأوتوماتيكي واليدوي للنهج النتائج الواعدة فيما يتعلق بالجيل التلقائي من البدائل الجنسانية لجمل المحادثة باللغة الإسبانية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هجمات الخصومة تغيير تنبؤات نموذج NLP من خلال اضطراب مدخلات وقت الاختبار.ومع ذلك، فمن الأقل تفهم سواء، وكيف يمكن التلاعب بالتنبؤات مع تغييرات صغيرة مخفية في بيانات التدريب.في هذا العمل، نقوم بتطوير هجوم جديد لتسمم البيانات يتيح خصما للسيطرة على تنبؤات النموذج كلما كانت عبارة الزناد المرغوبة موجودة في المدخلات.على سبيل المثال، ندرج 50 أمثلة سامة في مجموعة تدريب طراز المعنويات التي تسبب النموذج يتوقع بشكل متكرر إيجابية كلما كان الإدخال يحتوي على جيمس بوند ".من الأهمية، نحن نقوم بتحرير هذه الأمثلة السامة باستخدام إجراء يستند إلى التدرج حتى لا يذكر عبارة الزناد.نحن نطبق أيضا هجوم السم لدينا على نمذجة اللغة (تشغيل Apple iPhone "يؤدي إلى الأجيال السلبية) والترجمة الآلية (" القهوة المثلجة "التي يتم إساءة فهمها كقهوة ساخنة").نستنتج من خلال اقتراح ثلاثة دفاعات يمكن أن تخفف من هجومنا على بعض التكلفة في دقة التنبؤ أو الشرح البشري الإضافي.
جزء أساسي من حركة الأخلاقيات NLP هو استخدام البيانات المسؤولة عن البيانات، ولكن بالضبط ما يعنيه ذلك أو كيف يمكن تحقيقه بشكل أفضل لا يزال غير واضح.تناقش ورقة الموضع هذه المبادئ القانونية والأخلاقية الأساسية لجمع البيانات النصية ومشاركتها، والتوترات بي نهما.نقترح قائمة مرجعية محتملة لاستخدام البيانات المسؤولة (إعادة) والتي يمكن أن توحيد مراجعة النظراء لتقديمات المؤتمرات، وكذلك تمكين رؤية أكثر متعمقة للبحث المنشور في جميع أنحاء المجتمع.تهدف اقتراحنا إلى المساهمة في تطوير معيار متسق لاستخدام البيانات (إعادة)، واحتضنت مؤتمرات NLP.
الشبكات العصبية هي طريقة أحدثت لآلة التعلم للعديد من المشاكل في NLP.نجاحهم في الترجمة الآلية ومهام NLP الأخرى هي ظاهرة، لكن قابلية الترجمة الشفوية تحديا.نريد معرفة كيف تمثل الشبكات العصبية معنى.من أجل القيام بذلك، نقترح فحص توزيع المعنى في تمثيل المس احة المتجهة للكلمات في الشبكات العصبية المدربة لمهام NLP.علاوة على ذلك، نقترح النظر في نظريات المعنى المختلفة في فلسفة اللغة وإيجاد منهجية ستمكننا من توصيل هذه المجالات.
استخدام الوعود هو سائق معروف لتغيير اللغة. وقد اقترح أن تستخدم النساء النساء أكثر من الرجال. على الرغم من وجود العديد من الدراسات التي تحقق في الاختلافات بين الجنسين في اللغة، إلا أن المطالبة المتعلقة باستخدام الاستحمام لم يتم اختبارها بشكل شامل عبر الزمن. إذا كانت النساء يستخدمن اللفائف أكثر، فقد يعني ذلك أن النساء يقودن أيضا تكوين عمليات إفراطية جديدة وتغيير اللغة مع مرور الوقت. باستخدام أربعة نص شهير كوربورا كبيرة من اللغة الإنجليزية، نقيم الادعاء بأن النساء يستخدمن الزيادات أكثر من الرجال من خلال تحليل كمي. كنا قمنا بتجميع قائمة ب 106 أزواج من الطبع - المحرمات لتحليل استخدامها النسبي عبر الزمن من قبل كل جنس في Corga. على عكس الاعتقاد الحالي، تظهر نتائجنا أن النساء لا يستخدمن اللفائف ذات نسبة أعلى من الرجال. كررنا التحليل باستخدام قائمة فرعية مختلفة من قائمة الأزواج من الادعاء-المحرمات ووجدت أن النتيجة كانت قوية. تشير دراستنا إلى أنه في مجموعة واسعة من الإعدادات التي تنطوي على كل من الخطاب والكتابة، ومع درجات متفاوتة من الأشكال، لا تستخدم النساء أو تشكيل الزيادات أكثر من الرجال.
يؤثر البحث على الإنترنت على إدراك الناس في العالم، وبالتالي فإن التخفيف من التحيزات في نتائج البحث ونماذج التعلم العادلة أمر حتمي للجيدة الاجتماعية.نحن ندرس تحيز جنساني فريد من نوعه في البحث في الصورة في هذا العمل: غالبا ما تكون صور البحث في كثير من الأحيان عن النوع الاجتماعي لاستفسارات اللغة الطبيعية المحايدة بين الجنسين.نحن تشخيص طرازات بحث عن الصور النموذجية، النموذج المتخصص المدرب على مجموعات البيانات داخل المجال ونموذج التمثيل المعمم مسبقا على صورة واسعة بيانات النصية عبر الإنترنت.كلا النموذجين يعانون من التحيز بين الجنسين الحاد.لذلك، نقدم اثنين مناهج ديوان رواية: طريقة أخذ العينات المعدة المعالجة لمعالجة قضية عدم التوازن بين الجنسين للنماذج التدريبية، وميزة ما بعد المعالجة هي قاعدة أسلوب لقطة على المعلومات المتبادلة إلى تمثيلات Debias متعددة الوسائط للنماذج المدربة مسبقا.تجارب واسعة على معايير MS-COCO و FLICKR30K تظهر أن أساليبنا تقلل بشكل كبير من التحيز بين الجنسين في نماذج البحث عن الصور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا