ارتفع الأداء القياسي لتحليل الدلالي عبر قاعدة البيانات بشكل مطرد في السنوات الأخيرة، وحفزه باعتماد النماذج اللغوية المدربة مسبقا.ومع ذلك، فقد أظهر العمل الحالي أن المحاورين الدلاليين في قاعدة البيانات عبر الإنترنت يكافحون للتعميم إلى كلمات المستخدمين، وقواعد البيانات وهياكل الاستعلام.للحصول على تفاصيل شفافة حول نقاط القوة والحد من هذه النماذج، نقترح نهج اختبار تشخيصي يعتمد على توليفات التحكم في اللغة الطبيعية الكنسية وأزواج SQL.مستوحاة من قائمة المراجعة، فإننا نميز مجموعة من القدرات الأساسية لنماذج تحليل الدلالية عبر قاعدة البيانات، وتفصيل الطريقة لتوليف بيانات الاختبار المقابلة.قمنا بتقييم مجموعة متنوعة من النماذج عالية الأداء باستخدام النهج المقترح، وحددت العديد من نقاط الضعف غير الواضحة عبر النماذج (E.G. غير قادر على تحديد العديد من الأعمدة بشكل صحيح).يتم إصدار بيانات DataSet و Code كجناح اختبار على http://github.com/hclent/behaviorchecksempar.
The benchmark performance of cross-database semantic parsing has climbed steadily in recent years, catalyzed by the wide adoption of pre-trained language models. Yet existing work have shown that state-of-the-art cross-database semantic parsers struggle to generalize to novel user utterances, databases and query structures. To obtain transparent details on the strengths and limitation of these models, we propose a diagnostic testing approach based on controlled synthesis of canonical natural language and SQL pairs. Inspired by the CheckList, we characterize a set of essential capabilities for cross-database semantic parsing models, and detailed the method for synthesizing the corresponding test data. We evaluated a variety of high performing models using the proposed approach, and identified several non-obvious weaknesses across models (e.g. unable to correctly select many columns). Our dataset and code are released as a test suite at http://github.com/hclent/BehaviorCheckingSemPar.
References used
https://aclanthology.org/
We explore the use of large pretrained language models as few-shot semantic parsers. The goal in semantic parsing is to generate a structured meaning representation given a natural language input. However, language models are trained to generate natu
Deep Learning-based NLP systems can be sensitive to unseen tokens and hard to learn with high-dimensional inputs, which critically hinder learning generalization. We introduce an approach by grouping input words based on their semantic diversity to s
While cross-lingual techniques are finding increasing success in a wide range of Natural Language Processing tasks, their application to Semantic Role Labeling (SRL) has been strongly limited by the fact that each language adopts its own linguistic f
Despite their success, modern language models are fragile. Even small changes in their training pipeline can lead to unexpected results. We study this phenomenon by examining the robustness of ALBERT (Lan et al., 2020) in combination with Stochastic
This paper aims to test weak form efficiency in
Damascus , Amman , Muscat securities market .It examines daily
stock return index during ( 1 - 4- 2010 ) , ( 31 - 12 - 2016 ) using
normal distribution test , runs test , autocorrelation test , unit