إن فهم كيفية ترميز الهيكل اللغوي في التضمين السياق يمكن أن يساعد في تفسير أدائه المثير للإعجاب عبر NLP.عادة ما تدعو النهج الحالية لتحقيقها عادة إلى تدريب الطبقات وتستخدم الدقة والمعلومات المتبادلة أو التعقيد كوكيل لخير التمثيل.في هذا العمل، نجادل بأن القيام بذلك يمكن أن يكون غير موثوق به لأن تمثيلات مختلفة قد تحتاج إلى طبقات مختلفة.نقوم بتطوير إرشادي، DirectProbe، يدرس مباشرة هندسة التمثيل من خلال البناء عند فكرة مساحة الإصدار لمهمة.تبين التجارب التي لديها العديد من المهام اللغوية والموظفة السياقية أنه، حتى بدون منصوص قياسات التدريب، يمكن أن يضيء DirectProbe الأنوار حول كيفية تمثيل مساحة التضمين ملصقات وتوقع أيضا أداء المصنف للتمثيل أيضا.
Understanding how linguistic structure is encoded in contextualized embedding could help explain their impressive performance across NLP. Existing approaches for probing them usually call for training classifiers and use the accuracy, mutual information, or complexity as a proxy for the representation's goodness. In this work, we argue that doing so can be unreliable because different representations may need different classifiers. We develop a heuristic, DirectProbe, that directly studies the geometry of a representation by building upon the notion of a version space for a task. Experiments with several linguistic tasks and contextualized embeddings show that, even without training classifiers, DirectProbe can shine lights on how an embedding space represents labels and also anticipate the classifier performance for the representation.
المراجع المستخدمة
https://aclanthology.org/
يهدف البحث إلى حساب حلول إغناتشاك النظامية, الهوكية و المتممة, بالتالي الحلول النظامية, الكلية للجسم المرن دقيق الاستقطاب, المترابط مع حقل درجات حرارة و يملأ R3.
غالبا ما يتم انتقاد حلول التعلم الآلية لعدم وجود شرح لنجاحاتها وفشلها. فهم المثيلات التي يتم إساءة استخدامها ولماذا ضرورية لتحسين عملية التعلم. يساعد هذا العمل في ملء هذه الفجوة من خلال اقتراح منهجية تميز، حدد وقياس تأثير مثيلات صعبة في مهمة تصنيف ال
نحن نقدم SelfExPlain، وهو نموذج جديد يشرح ذاتيا يفسر تنبؤات تصنيف النص باستخدام المفاهيم القائمة على العبارة.SelfExplain تزويد الأقراص العصبية الموجودة من خلال إضافة (1) طبقة مخصصة عالمية تحدد المفاهيم الأكثر نفوذا في مجموعة التدريب لعينة معينة و (2)
تحديد ما إذا كان هناك مستندان مؤلفان من المؤلف نفسه، المعروف أيضا باسم التحقق من التأليف، تم تناوله تقليديا باستخدام الأساليب الإحصائية. في الآونة الأخيرة، تم العثور على تمثيلات التأليف المستفادة باستخدام الشبكات العصبية لتفوق البدائل، لا سيما في الإ
في خطوط أنابيب معالجة اللغة الطبيعية الحديثة، فمن الممارسات الشائعة أن تعزز "نموذج لغة تابعة له على جثة كبيرة من النص، ثم إلى Finetune '' من التمثيلات التي تم إنشاؤها من خلال الاستمرار في تدريبهم على مهمة استنصائية نصية تمييزية.ومع ذلك، ليس من الواضح