يمكن أن تسبب التحيزات والتحف في البيانات التدريبية في سلوك غير مرحب به في نصوص النص (مثل مطابقة النمط الضحل)، مما يؤدي إلى عدم القدرة على التعميم.أحد الحلول لهذه المشكلة هو إدراج المستخدمين في الحلقة والاستفادة تعليقاتهم لتحسين النماذج.نقترح خط أنابيب تصحيح توضيحي جديد يسمى Hildif، مما يتيح البشر لتحسين أقراص نصية عميقة باستخدام وظائف التأثير كطريقة تفسير.نقوم بتجربة مهمة الاستدلال باللغة الطبيعية (NLI)، والتي تبين أن Hildif يمكن أن تخفف من مشاكل القطع الأثرية بشكل فعال في نماذج بيرت التي تم ضبطها بشكل جيد وتؤدي إلى زيادة التعميم النموذجي.
Biases and artifacts in training data can cause unwelcome behavior in text classifiers (such as shallow pattern matching), leading to lack of generalizability. One solution to this problem is to include users in the loop and leverage their feedback to improve models. We propose a novel explanatory debugging pipeline called HILDIF, enabling humans to improve deep text classifiers using influence functions as an explanation method. We experiment on the Natural Language Inference (NLI) task, showing that HILDIF can effectively alleviate artifact problems in fine-tuned BERT models and result in increased model generalizability.
المراجع المستخدمة
https://aclanthology.org/
تصحيح الأخطاء المجردة نموذج تعلم الجهاز أمر صعب للغاية حيث يشمل الخطأ عادة بيانات التدريب وعملية التعلم.يصبح هذا أكثر صعوبة بالنسبة لطراز التعلم العميق غير المشفح إذا لم يكن لدينا أدنى فكرة عن كيفية عمل النموذج بالفعل.في هذا الاستطلاع، نراجع الأوراق
لبناء أسئلة قوية لإجابة أنظمة الرد، نحتاج إلى القدرة على التحقق مما إذا كانت الإجابات على الأسئلة صحيحة حقا، وليس فقط جيدة بما فيه الكفاية "في سياق مجموعات بيانات QA غير الكاملة. نستكشف استخدام الاستدلال اللغوي الطبيعي (NLI) كوسيلة لتحقيق هذا الهدف،
نقدم وكيل مخطط تفاعلي، وهو نظام تمكن المستخدمين من التلاعب مباشرة بالألوان باستخدام تعليمات اللغة الطبيعية داخل بيئة برمجة تفاعلية.خرائط عامل التآمر اللغة لتغطية التحديثات.نحن صياغة هذه المشكلة كملكة حوار حوار موجهة نحو المهام القائمة على فتحة، والتي
على الرغم من نوعية جيدة بشكل جيد لأنظمة الترجمة الآلية (MT)، تتطلب مخرجات MT تصحيحات. تم تقديم نماذج ما بعد التحرير التلقائي (APE) لأداء هذه التصحيحات دون تدخل بشري. ومع ذلك، لا يتمكن أي نظام من أتمتة عملية التحرير بالكامل (PE). علاوة على ذلك، في حين
يعاني تصحيح الخطأ النحوي (GEC) من عدم وجود بيانات متوازية كافية. اقترحت دراسات حول GEC عدة طرق لتوليد بيانات زائفة، والتي تشمل أزواج من الجمل النحوية والنصيع بشكل مصطنع. حاليا، فإن النهج السائد لتوليد بيانات الزائفة هو الترجمة مرة أخرى (BT). وقد استخ