اكتسبت توليف البيانات لتحليل الدلالي اهتماما متزايدا مؤخرا. ومع ذلك، فإن معظم الطرق تتطلب قواعد يدوية (عالية الدقة) في عملية توليدها، مما يعوق استكشاف بيانات غير مرئية متنوعة. في هذا العمل، نقترح نموذجا عاما يتميز ببرنامج PCFG (غير العصبي) نماذج تكوين البرامج (E.G.، SQL)، ونموذج الترجمة المستندة إلى BART خرائط برنامج إلى كلام. نظرا لبساطة PCFG و BART المدربة مسبقا، يمكن تعلم نموذجنا التوليدي بكفاءة من البيانات الموجودة في متناول اليد. علاوة على ذلك، يؤدي التركيبات النمذجة بشكل صريح باستخدام PCFG إلى استكشاف أفضل لبرامج غير مرئية، وبالتالي توليد بيانات أكثر تنوعا. نقوم بتقييم طريقتنا في كل من الإعدادات داخل المجال والخروج من تحليل النص إلى SQL على المعايير القياسية للجهازية والعنكب العنكبوت، على التوالي. تبين نتائجنا التجريبية أن البيانات المركبة التي تم إنشاؤها من طرازنا يمكن أن تساعد بشكل كبير في محلل الدلالي يحقق تعميم أفضل أو مجال.
Synthesizing data for semantic parsing has gained increasing attention recently. However, most methods require handcrafted (high-precision) rules in their generative process, hindering the exploration of diverse unseen data. In this work, we propose a generative model which features a (non-neural) PCFG that models the composition of programs (e.g., SQL), and a BART-based translation model that maps a program to an utterance. Due to the simplicity of PCFG and pre-trained BART, our generative model can be efficiently learned from existing data at hand. Moreover, explicitly modeling compositions using PCFG leads to better exploration of unseen programs, thus generate more diverse data. We evaluate our method in both in-domain and out-of-domain settings of text-to-SQL parsing on the standard benchmarks of GeoQuery and Spider, respectively. Our empirical results show that the synthesized data generated from our model can substantially help a semantic parser achieve better compositional and domain generalization.
المراجع المستخدمة
https://aclanthology.org/
AM تحليل التبعية هي طريقة لتحليل الرسم البياني الدلالي العصبي الذي يستغل مبدأ التركيبية.على الرغم من أن محلل التبعية، فقد تبين أن محلل التبعية سريعة ودقيقة عبر العديد من الرسوم البيانية، فإنها تتطلب عبائيات صريحة لهياكل الأشجار التركيبية للتدريب.في ا
البشر قادرون على تعلم مفاهيم جديدة من أمثلة قليلة جدا؛ في المقابل، تحتاج خوارزميات التعلم في الآلة الحديثة عادة الآلاف من الأمثلة للقيام بذلك. في هذه الورقة، نقترح خوارزمية لتعلم مفاهيم جديدة من خلال تمثيلها كبرامج بشأن المفاهيم القائمة. وبهذه الطريق
في هذه الورقة، نقترح نموذجا طبيعيا عالميا لتحليل القواعد النحوية الخالية من السياق (CFG).بدلا من التنبؤ باحتمال، يتوقع نموذجنا درجة حقيقية في كل خطوة ولا تعاني من مشكلة تحيز التسمية.تظهر التجارب أن نهجنا تفوق النماذج الطبيعية محليا على مجموعات البيان
تهدف التحليل الدلالي إلى ترجمة كلام اللغة الطبيعية (NL) على البرامج القابلة للتفسير بالآلة، والتي يمكن تنفيذها مقابل بيئة عالمية حقيقية. منذ فترة طويلة تم الاعتراف بالشروح باهظة الثمن لأزواج برنامج الكلام كعقوبة رئيسية لنشر النماذج العصبية المعاصرة ل
النموذج المهيمن للتحلل الدلالي في السنوات الأخيرة هو صياغة تحليل كمركز تسلسل إلى تسلسل، وتوليد تنبؤات مع فك تراجع التسلسل التلقائي.في هذا العمل، نستكشف نموذجا بديلا.نقوم بصياغة تحليل دلالي كهامة تحليل التبعية، وتطبيق تقنيات فك التشفير المستندة إلى ال