شرح نماذج الشبكة العصبية مهمة لزيادة جدورث بالثقة في تطبيقات العالم الحقيقي. توليد معظم الأساليب الموجودة تفسيرات ما بعد الهخص لنماذج الشبكة العصبية من خلال تحديد وسمات الميزات الفردية أو الكشف عن التفاعلات بين الميزات المجاورة. ومع ذلك، بالنسبة للنماذج التي تحتوي على أزواج نصية كدخلات (على سبيل المثال، التعريف بإعادة صياغة التعريف)، فإن الأساليب الموجودة ليست كافية لالتقاط تفاعلات الميزات بين نصين وتمديدها البسيط لحساب جميع تفاعلات Word-Beach بين نصفي غير فعال. في هذا العمل، نقترح طريقة Group Mask (GMASK) لتكتشف ضمنيا علاقات الكلمات من خلال تجميع الكلمات المرتبطة من زوج إدخال الإدخال معا وقياس مساهمتها في مهام NLP المقابلة ككل. يتم تقييم الطريقة المقترحة مع اثنين من بنية نموذجية مختلفة (نموذج الاهتمام للتحلل) عبر أربع مجموعات بيانات، بما في ذلك الاستدلال اللغوي الطبيعي وإعادة صياغة مهام التعريف. تظهر التجارب فعالية Gmask في توفير تفسيرات مخلصة لهذه النماذج.
Explaining neural network models is important for increasing their trustworthiness in real-world applications. Most existing methods generate post-hoc explanations for neural network models by identifying individual feature attributions or detecting interactions between adjacent features. However, for models with text pairs as inputs (e.g., paraphrase identification), existing methods are not sufficient to capture feature interactions between two texts and their simple extension of computing all word-pair interactions between two texts is computationally inefficient. In this work, we propose the Group Mask (GMASK) method to implicitly detect word correlations by grouping correlated words from the input text pair together and measure their contribution to the corresponding NLP tasks as a whole. The proposed method is evaluated with two different model architectures (decomposable attention model and BERT) across four datasets, including natural language inference and paraphrase identification tasks. Experiments show the effectiveness of GMASK in providing faithful explanations to these models.
References used
https://aclanthology.org/
We offer an approach to explain Decision Tree (DT) predictions by addressing potential conflicts between aspects of these predictions and plausible expectations licensed by background information. We define four types of conflicts, operationalize the
In computational linguistics, it has been shown that hierarchical structures make language models (LMs) more human-like. However, the previous literature has been agnostic about a parsing strategy of the hierarchical models. In this paper, we investi
Modern approaches to Constituency Parsing are mono-lingual supervised approaches which require large amount of labelled data to be trained on, thus limiting their utility to only a handful of high-resource languages. To address this issue of data-spa
This work proposes an extensive analysis of the Transformer architecture in the Neural Machine Translation (NMT) setting. Focusing on the encoder-decoder attention mechanism, we prove that attention weights systematically make alignment errors by rel
Translation divergences are varied and widespread, challenging approaches that rely on parallel text. To annotate translation divergences, we propose a schema grounded in the Abstract Meaning Representation (AMR), a sentence-level semantic framework