يهدف الترشيد الانتقائي إلى إنتاج قرارات جنبا إلى جنب مع المناولة (على سبيل المثال، النصوص النصية أو محاذاة الكلمات بين جملتين). عادة ما يتم تصميم المنظمات على غرار أقنعة ثنائية عشوائية، تتطلب من أدراج التدرج المستندة إلى أخذ العينات، والتي تعقد التدريب ويتطلب ضبط فرط الحرارة الدقيق. آليات الاهتمام المتنقل هي بديل محدد، لكنها تفتقر إلى طريقة لتنظيم استخراج الأساس المنطقي (على سبيل المثال، للسيطرة على Sparsity من تسليط الضوء على نص أو عدد المحاذاة). في هذه الورقة، نقدم إطارا موحدا لاستخراج التفسيرات المحددة من خلال الاستدلال المحدود على رسم بياني عامل، مما يشكل طبقة مختلفة. نهجنا تخفف إلى حد كبير التدريب والأساس المنطقي، مما يتفوق بشكل عام على العمل السابق بشأن ما يأتي إلى الأداء والمعقولية للمناولة المستخرجة. نحن نقدم كذلك دراسة مقارنة للأساليب الاستوكاستيكية والحتمية لاستخراج الأساس المنطقي لتصنيف مهام الاستدلال واللغة الطبيعية، وتقييم قوة التنبؤية بشكل مشترك، ونوعية التفسيرات، والتقلبات النموذجية.
Selective rationalization aims to produce decisions along with rationales (e.g., text highlights or word alignments between two sentences). Commonly, rationales are modeled as stochastic binary masks, requiring sampling-based gradient estimators, which complicates training and requires careful hyperparameter tuning. Sparse attention mechanisms are a deterministic alternative, but they lack a way to regularize the rationale extraction (e.g., to control the sparsity of a text highlight or the number of alignments). In this paper, we present a unified framework for deterministic extraction of structured explanations via constrained inference on a factor graph, forming a differentiable layer. Our approach greatly eases training and rationale regularization, generally outperforming previous work on what comes to performance and plausibility of the extracted rationales. We further provide a comparative study of stochastic and deterministic methods for rationale extraction for classification and natural language inference tasks, jointly assessing their predictive power, quality of the explanations, and model variability.
References used
https://aclanthology.org/
When learned without exploration, local models for structured prediction tasks are subject to exposure bias and cannot be trained without detailed guidance. Active Imitation Learning (AIL), also known in NLP as Dynamic Oracle Learning, is a general t
Current sequence-to-sequence models are trained to minimize cross-entropy and use softmax to compute the locally normalized probabilities over target sequences. While this setup has led to strong results in a variety of tasks, one unsatisfying aspect
Abstract Dual encoders perform retrieval by encoding documents and queries into dense low-dimensional vectors, scoring each document by its inner product with the query. We investigate the capacity of this architecture relative to sparse bag-of-words
We present DART, an open domain structured DAta Record to Text generation dataset with over 82k instances (DARTs). Data-to-text annotations can be a costly process, especially when dealing with tables which are the major source of structured data and
The semantic matching capabilities of neural information retrieval can ameliorate synonymy and polysemy problems of symbolic approaches. However, neural models' dense representations are more suitable for re-ranking, due to their inefficiency. Sparse