ترغب بنشر مسار تعليمي؟ اضغط هنا

هيكل - محاولات محاكاة للنص إلى SQL

Structure-Grounded Pretraining for Text-to-SQL

210   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يعد تعلم محاذاة جدول النص أمرا ضروريا للمهام مثل النص إلى SQL. يحتاج النموذج إلى التعرف بشكل صحيح على مراجع اللغة الطبيعية إلى الأعمدة والقيم وإيصارها في مخطط قاعدة البيانات المحدد. في هذه الورقة، نقدم رواية خاضعة للإشراف على أساس إشراف الإشراف على إنشاء هيكل (Stred) للنص إلى SQL والتي يمكن أن تتعلم بفعالية لالتقاط محاذاة جدول النصوص بناء على كوربوس نصي متوازي للنص. نحدد مجموعة من المهام التي تحذر الرواية: تأريض العمود، والتأريض القيمة ورسم الخرائط ذات القيمة العمودية، والاستفادة منهم للتأمر بتشمس الجدول النصي. بالإضافة إلى ذلك، لتقييم الأساليب المختلفة في إطار إعدادات محاذاة النصوص النصية أكثر واقعية، نقوم بإنشاء تقييم جديد تم تعيين العنكبوت على أساس مجموعة ديف العنكبوت مع إزالته الصريحة لأسماء الأعمدة التي تمت إزالتها، واعتماد ثمانية مجموعات بيانات نصية إلى SQL الحالية تقييم قاعدة البيانات. Werug يجلب تحسنا كبيرا على Bertlarge في جميع الإعدادات. بالمقارنة مع طرق الاحتجاج الحالية مثل Grappa، تحقق Strech أداء مماثل على العنكبوت، وتتفوق على جميع خطوط الأساس على مجموعات أكثر واقعية. سيكون جميع التعليمات البرمجية والبيانات المستخدمة في هذا العمل مفتوحة لتسهيل البحث في المستقبل.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

البيانات القوية وبأسعار معقولة في المجال هي أصل مرغوب فيه عند نقل المحللين الدلاليين المدربين إلى مجالات جديدة.نظرا لأن الأساليب السابقة لإنشاء مثل هذه البيانات نصف تلقائيا لا يمكن أن تتعامل مع تعقيد استفسارات SQL الواقعية، نقترح بناء استفسارات SQL ع بر أخذ العينات التي تعتمد على السياق، وقدم مفهوم الموضوع.جنبا إلى جنب مع طريقة البناء الخاصة بنا SQL، نقترح خط أنابيب رواية من إنشاء بيانات النصوص شبه التلقائي Text-to-sql تغطي مساحة واسعة من استعلامات SQL.نظهر أن مجموعة البيانات التي تم إنشاؤها قابلة للمقارنة مع شروح الخبراء على طول أبعاد متعددة، وهي قادرة على تحسين أداء نقل المجال لمحلل سوتا الدلالي.
يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه، في هذه الورقة نركز على التبسيط.نبدأ بإعادة بناء DUORAT، وإعادة تنفيذ طراز Rat-Art-Art-Art الذي يعكس RAT-SQL باستخدام محولات العلاقات أو الفانيليا فقط كقطات بناء.نحن نؤدي العديد من التجارب الاجتثاث باستخدام Duorat كنموذج الأساس.تقوم تجاربنا بتأكيد فائدة بعض التقنيات وأشرح التكرار للآخرين، بما في ذلك ميزات وميزات SQL الهيكلية التي ترتبط بالسؤال مع المخطط.
يعد معالجة عدم التطابق بين الأوصاف اللغوية الطبيعية واستعلامات SQL المقابلة تحديا رئيسيا للترجمة النصية إلى SQL. لسد هذه الفجوة، نقترح تمثيل SQL الوسيط (IR) يسمى SQL الطبيعية (Natsql). على وجه التحديد، يحافظ NATSQL على الوظائف الأساسية ل SQL، في حين أنه يبسط الاستفسارات على النحو التالي: (1) الاستغناء عن المشغلين والكلمات الرئيسية مثل المجموعة من قبل المجموعة، بعد، من أجل الانضمام، والتي عادة ما تكون من الصعب العثور على نظرائهم في أوصاف النص؛ (2) إزالة الحاجة إلى السدود المتداخلة وتعيين المشغلين؛ (3) جعل المخطط يربط أسهل عن طريق تقليل العدد المطلوب من عناصر المخطط. على العنكبوت، وهو معيار نصي To-SQL الصعب يحتوي على استفسارات SQL معقدة ومتداخلة، نوضح أن NATSQL تفوق irs غيرها من مصلحة الضرائب الأخرى، وتحسين أداء العديد من نماذج Sota السابقة. علاوة على ذلك، بالنسبة للنماذج الحالية التي لا تدعم جيل SQL القابل للتنفيذ، يمكنك استخدامها NATSQL بسهولة من إنشاء استعلامات SQL القابلة للتنفيذ، وتحقق دقة تنفيذ الحالة الجديدة من بين الفن.
تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس أل البشر عن البيانات التي يحتاجونها أو فضولها.في هذا العمل، نطلق سراح SEDE، مجموعة بيانات مع 12،023 أزواج من الكلام واستفسارات SQL التي تم جمعها من الاستخدام الحقيقي على موقع Stack Exchange.نظظ أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات في العالم الحقيقي والتي نادرا ما تنعكس حتى الآن في أي مجموعة بيانات تحليل دلالية أخرى، اقترح متري تقييم استنادا إلى مقارنة بنود الاستعلام الجزئي الأكثر ملاءمة لاستفسارات العالم الحقيقي، وإجراء تجاربمع خطوط أساس قوية، تظهر فجوة كبيرة بين الأداء على SEDE مقارنة مع مجموعات البيانات الشائعة الأخرى.
تصف هذه الورقة نظام NAIST لمهمة الترجمة المركزة للترجمة الفورية إلى الإنجليزية إلى اليابانية في حملة تقييم IWSLT 2021.يعتمد تقديمنا الأساسي على الترجمة الآلية العصبية WAIL-K مع تقطير المعرفة على مستوى التسلسل لتشجيع الترجمة الحرفية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا