ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف والاضطرب: إعادة كتابة محايدة للنص المتحيز والحساسة عبر فك التشفير المستندة إلى التدرج

Detect and Perturb: Neutral Rewriting of Biased and Sensitive Text via Gradient-based Decoding

268   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اللغة المكتوبة تحمل تحيزات صريحة وتضيعة يمكن أن تصرفت عن إشارات ذات مغزى. على سبيل المثال، قد تصف خطابات المرجعية المرشحين الذكور والإناث بشكل مختلف، أو قد تكشف أسلوب الكتابة الخاصة بهم بشكل غير مباشر عن الخصائص الديموغرافية. في أحسن الأحوال، يصرف مثل هذه التحيزات عن المحتوى المجدي للنص؛ في أسوأ الأحوال يمكن أن تؤدي إلى نتائج غير عادلة. نحن نبحث في تحدي إعادة توليد جمل مدخلات لتحييد "السمات الحساسة" مع الحفاظ على المعنى الدلالي للنص الأصلي (E.G. هو المرشح المؤهل؟). نقترح إطار إعادة كتابة واستنادا في التدرج، والكشف عن وإقلاده لتحييد (DEPEN)، الذي يكتشف أولا مكونات حساسة ويخفيهن من أجل التجديد، ثم يزعج نموذج الجيل عند فك تشفير الوقت تحت قيد تحييد يدفع التوزيع (المتوقع) سمات نحو توزيع موحد. تظهر تجاربنا في سيناريوهات مختلفة أن DEPEN يمكن أن تجدد البدائل الطوفية محايدة في السمة الحساسة مع الحفاظ على دلالات السمات الأخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح أول هجوم مقاوم للتدرج على المستوى العام على نماذج المحولات.بدلا من البحث عن مثال خصم واحد، نبحث عن توزيع الأمثلة الخصومة المعلمة بواسطة مصفوفة مستمرة قيمة، وبالتالي تمكين التحسين المستندة إلى التدرج.إننا نوضح تجريبيا أن هجومنا الأبيض الخاص بنا يصل إلى أداء الهجوم الحديثة في مجموعة متنوعة من المهام اللغوية الطبيعية، مما يتفوق على العمل السابق من حيث معدل النجاح العديي مع مطابقة غير محسنة حسب التقييم الآلي والبشري.علاوة على ذلك، نظير على أن هجوم قوي عبر الصندوق الأسود، تم تمكينه بواسطة أخذ العينات من التوزيع العديزي أو يطابق أو يتجاوز الطرق الحالية، في حين يتطلب فقط مخرجات التسمية الصعبة.
Requery Rewrite (QR) هو مكون ناشئ في أنظمة المحادثة AI، مما يقلل من عيب المستخدم.سبب عيب المستخدم لأسباب مختلفة، مثل الأخطاء في نظام الحوار المنطوق أو عروض المستخدمين للسان أو لغتهم المختصرة.ينبع العديد من عيوب المستخدمين من العوامل الشخصية، مثل نمط خطاب المستخدم أو اللهجة أو التفضيلات.في هذا العمل، نقترح إطار عمل QR القائم على البحث شخصي، والذي يركز على التخفيض التلقائي لعيب المستخدم.نقوم ببناء مؤشر شخصي لكل مستخدم، يشمل طبقات تقارب متنوعة لتعكس التفضيلات الشخصية لكل مستخدم في منظمة العفو الدولية المحادثة.يحتوي نظام QR الشخصي الخاص بنا على طبقات استرجاع وترتيب.بدعم من التعلم القائم على ملاحظات المستخدم، تدريب نماذجنا لا يتطلب بيانات مشروح يدوية.أظهرت التجارب على مجموعة الاختبارات الشخصية أن نظام QR الشخصي الخاص بنا قادر على تصحيح أخطاء النظامية والمستخدم باستخدام المدخلات الصوتية والدلية.
النموذج المهيمن للتحلل الدلالي في السنوات الأخيرة هو صياغة تحليل كمركز تسلسل إلى تسلسل، وتوليد تنبؤات مع فك تراجع التسلسل التلقائي.في هذا العمل، نستكشف نموذجا بديلا.نقوم بصياغة تحليل دلالي كهامة تحليل التبعية، وتطبيق تقنيات فك التشفير المستندة إلى ال رسم البياني المتقدمة لتحليل النحوي.نحن نقارن مختلف تقنيات فك التشفير بالنظر إلى نفس التشفير المحول المدرب مسبقا في أفضل مجموعة البيانات، بما في ذلك الإعدادات التي تكون فيها بيانات التدريب محدودة أو تحتوي على أمثلة مشروح جزئيا فقط.نجد أن نهجنا القائم على الرسم البياني لدينا هو تنافسي مع فك ترميز الترميز على الإعداد المعياري، ويقدم تحسينات كبيرة في كفاءة البيانات والإعدادات حيث تتوفر البيانات المشروح جزئيا.
نقدم مجموعة بيانات جديدة لإعادة كتابة الأسئلة في سياق المحادثة (QRECC)، والتي تحتوي على محادثات 14 ألف مع أزواج من الإجابات السؤال 80k.تتمثل المهمة في QRECC في العثور على إجابات على أسئلة المحادثة داخل مجموعة من صفحات الويب 10 أمتار (تقسيم إلى 54 متر ا مربعا).قد يتم توزيع إجابات على الأسئلة الموجودة في نفس المحادثة عبر العديد من صفحات الويب.توفر QRECC التعليقات التوضيحية التي تسمح لنا بتدريب وتقييم المهارات الفرعية الفردية من إعادة كتابة السؤال، واسترجاع المرور وفهم القراءة المطلوبة لمهمة الإجابة على مسألة المحادثة نهاية إلى نهاية.نبلغ عن فعالية نهج خط الأساس القوي الذي يجمع بين النموذج الحديثة لإعادة كتابة الأسئلة والنماذج التنافسية لقضاء ضمان الجودة المفتوحة.حددت نتائجنا أول خط أساسي ل DataSet QRECC مع F1 من 19.10، مقارنة بمضابط العلوي البشري 75.45، مما يدل على صعوبة الإعداد وغرفة كبيرة للتحسين.
يتم استخدام أخذ العينات المجدولة على نطاق واسع للتخفيف من مشكلة تحيز التعرض الترجمة الآلية العصبية. الدافع الأساسي هو محاكاة مشهد الاستدلال أثناء التدريب من خلال استبدال الرموز الأرضية مع الرموز الرائعة المتوقعة، وبالتالي سد الفجوة بين التدريب والاست دلال. ومع ذلك، فإن أخذ العينات المقررة للفانيليا تعتمد فقط على خطوات التدريب وعادل على قدم المساواة جميع خطوات فك التشفير. وهي تحاكي مشهد الاستدلال بمعدلات خطأ موحدة، والتي تفحص مشهد الاستدلال الحقيقي، حيث توجد خطوات فك التشفير الكبيرة عادة معدلات خطأ أعلى بسبب تراكم الخطأ. لتخفيف التناقض أعلاه، نقترح أساليب أخذ العينات المجدولة بناء على خطوات فك التشفير، مما يزيد من فرصة اختيار الرموز المتوقعة مع نمو خطوات فك التشفير. وبالتالي، يمكننا أن نحاكي أكثر واقعية المشهد الاستدلال أثناء التدريب، وبالتالي سد الفجوة بشكل أفضل بين التدريب والاستدلال. علاوة على ذلك، نحقق في أخذ العينات المجدولة بناء على كل من خطوات التدريب وفك تشفير الخطوات لمزيد من التحسينات. تجريبيا، فإن نهجنا تتفوق بشكل كبير على خط الأساس المحول وأخذ عينات من الفانيليا المجدولة على ثلاث مهام WMT واسعة النطاق. بالإضافة إلى ذلك، تعميم نهجنا أيضا بشكل جيد لمهمة تلخيص النص على معايير شعبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا