البيانات القوية وبأسعار معقولة في المجال هي أصل مرغوب فيه عند نقل المحللين الدلاليين المدربين إلى مجالات جديدة.نظرا لأن الأساليب السابقة لإنشاء مثل هذه البيانات نصف تلقائيا لا يمكن أن تتعامل مع تعقيد استفسارات SQL الواقعية، نقترح بناء استفسارات SQL عبر أخذ العينات التي تعتمد على السياق، وقدم مفهوم الموضوع.جنبا إلى جنب مع طريقة البناء الخاصة بنا SQL، نقترح خط أنابيب رواية من إنشاء بيانات النصوص شبه التلقائي Text-to-sql تغطي مساحة واسعة من استعلامات SQL.نظهر أن مجموعة البيانات التي تم إنشاؤها قابلة للمقارنة مع شروح الخبراء على طول أبعاد متعددة، وهي قادرة على تحسين أداء نقل المجال لمحلل سوتا الدلالي.
Strong and affordable in-domain data is a desirable asset when transferring trained semantic parsers to novel domains. As previous methods for semi-automatically constructing such data cannot handle the complexity of realistic SQL queries, we propose to construct SQL queries via context-dependent sampling, and introduce the concept of topic. Along with our SQL query construction method, we propose a novel pipeline of semi-automatic Text-to-SQL dataset construction that covers the broad space of SQL queries. We show that the created dataset is comparable with expert annotation along multiple dimensions, and is capable of improving domain transfer performance for SOTA semantic parsers.
المراجع المستخدمة
https://aclanthology.org/
يعد تعلم محاذاة جدول النص أمرا ضروريا للمهام مثل النص إلى SQL. يحتاج النموذج إلى التعرف بشكل صحيح على مراجع اللغة الطبيعية إلى الأعمدة والقيم وإيصارها في مخطط قاعدة البيانات المحدد. في هذه الورقة، نقدم رواية خاضعة للإشراف على أساس إشراف الإشراف على إ
تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس
يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه،
في الآونة الأخيرة، حقق نموذج لغوي كبير مدرب مسبقا يسمى T5 (محول نقل النصوص الموحد للنصوص) أداء حديثة في العديد من مهام NLP.ومع ذلك، لم يتم العثور على أي دراسة باستخدام هذا النموذج المدرب مسبقا على تبسيط النص.لذلك في هذه الورقة، نستكشف استخدام T5 Bric
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr