ترغب بنشر مسار تعليمي؟ اضغط هنا

Duorat: نحو نماذج Simpler Text-to-SQL

DuoRAT: Towards Simpler Text-to-SQL Models

482   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه، في هذه الورقة نركز على التبسيط.نبدأ بإعادة بناء DUORAT، وإعادة تنفيذ طراز Rat-Art-Art-Art الذي يعكس RAT-SQL باستخدام محولات العلاقات أو الفانيليا فقط كقطات بناء.نحن نؤدي العديد من التجارب الاجتثاث باستخدام Duorat كنموذج الأساس.تقوم تجاربنا بتأكيد فائدة بعض التقنيات وأشرح التكرار للآخرين، بما في ذلك ميزات وميزات SQL الهيكلية التي ترتبط بالسؤال مع المخطط.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس أل البشر عن البيانات التي يحتاجونها أو فضولها.في هذا العمل، نطلق سراح SEDE، مجموعة بيانات مع 12،023 أزواج من الكلام واستفسارات SQL التي تم جمعها من الاستخدام الحقيقي على موقع Stack Exchange.نظظ أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات في العالم الحقيقي والتي نادرا ما تنعكس حتى الآن في أي مجموعة بيانات تحليل دلالية أخرى، اقترح متري تقييم استنادا إلى مقارنة بنود الاستعلام الجزئي الأكثر ملاءمة لاستفسارات العالم الحقيقي، وإجراء تجاربمع خطوط أساس قوية، تظهر فجوة كبيرة بين الأداء على SEDE مقارنة مع مجموعات البيانات الشائعة الأخرى.
يعد تعلم محاذاة جدول النص أمرا ضروريا للمهام مثل النص إلى SQL. يحتاج النموذج إلى التعرف بشكل صحيح على مراجع اللغة الطبيعية إلى الأعمدة والقيم وإيصارها في مخطط قاعدة البيانات المحدد. في هذه الورقة، نقدم رواية خاضعة للإشراف على أساس إشراف الإشراف على إ نشاء هيكل (Stred) للنص إلى SQL والتي يمكن أن تتعلم بفعالية لالتقاط محاذاة جدول النصوص بناء على كوربوس نصي متوازي للنص. نحدد مجموعة من المهام التي تحذر الرواية: تأريض العمود، والتأريض القيمة ورسم الخرائط ذات القيمة العمودية، والاستفادة منهم للتأمر بتشمس الجدول النصي. بالإضافة إلى ذلك، لتقييم الأساليب المختلفة في إطار إعدادات محاذاة النصوص النصية أكثر واقعية، نقوم بإنشاء تقييم جديد تم تعيين العنكبوت على أساس مجموعة ديف العنكبوت مع إزالته الصريحة لأسماء الأعمدة التي تمت إزالتها، واعتماد ثمانية مجموعات بيانات نصية إلى SQL الحالية تقييم قاعدة البيانات. Werug يجلب تحسنا كبيرا على Bertlarge في جميع الإعدادات. بالمقارنة مع طرق الاحتجاج الحالية مثل Grappa، تحقق Strech أداء مماثل على العنكبوت، وتتفوق على جميع خطوط الأساس على مجموعات أكثر واقعية. سيكون جميع التعليمات البرمجية والبيانات المستخدمة في هذا العمل مفتوحة لتسهيل البحث في المستقبل.
يترجم الأساليب الموجودة للترجمة الآلية (MT) في الغالب نص معين في لغة المصدر في اللغة المستهدفة وبدون تشير صراحة إلى المعلومات التي لا غنى عنها لإنتاج ترجمة مناسبة. لا يشمل ذلك فقط المعلومات في العناصر والطرائق النصية الأخرى من النصوص الموجودة في نفس المستند، بل أيضا معلومات إضافية وثلاثة وثيقة وغير لغوية مثل المعايير والسكوب. لتصميم تدفقات عمل الترجمة أفضل ونحن بحاجة إلى التمييز بين مشكلات الترجمة التي يمكن حلها من خلال أساليب النص إلى النص الموجودة وغيرها. تحقيقا لهذه الغاية، أجرينا تقييم تحليلي لنواتج MT وأخذ مهمة ترجمة من الأخبار الإنجليزية إلى اليابانية كدراسة حالة. أولا وأمثلة على مشكلات الترجمة وتنقيحاتها تم جمعها بواسطة طريقة ما بعد التحرير على مرحلتين (PE): أداء الحد الأدنى من PE للحصول على الترجمة التي يمكن تحقيقها بناء على المعلومات النصية المعينة وإجراء المزيد من الأداء الكامل للحصول على ترجمة مقبولة حقا تشير إلى أي المعلومات إذا لزم الأمر. ثم تم تحليل أمثلة المراجعة التي تم جمعها يدويا. كشفنا عن القضايا والمعلومات المهيمنة التي لا غنى عنها لحلها وكائن مثل مواصفات النمط المحبوسين والمعدات المصطلحات والمعرفة الخاصة بالمجال والمستندات المرجعية الخاصة بالمجال وتحديد تمييز واضح بين الترجمة وما يمكن أن يحقق MT النص إلى النص في النهاية.
يعد معالجة عدم التطابق بين الأوصاف اللغوية الطبيعية واستعلامات SQL المقابلة تحديا رئيسيا للترجمة النصية إلى SQL. لسد هذه الفجوة، نقترح تمثيل SQL الوسيط (IR) يسمى SQL الطبيعية (Natsql). على وجه التحديد، يحافظ NATSQL على الوظائف الأساسية ل SQL، في حين أنه يبسط الاستفسارات على النحو التالي: (1) الاستغناء عن المشغلين والكلمات الرئيسية مثل المجموعة من قبل المجموعة، بعد، من أجل الانضمام، والتي عادة ما تكون من الصعب العثور على نظرائهم في أوصاف النص؛ (2) إزالة الحاجة إلى السدود المتداخلة وتعيين المشغلين؛ (3) جعل المخطط يربط أسهل عن طريق تقليل العدد المطلوب من عناصر المخطط. على العنكبوت، وهو معيار نصي To-SQL الصعب يحتوي على استفسارات SQL معقدة ومتداخلة، نوضح أن NATSQL تفوق irs غيرها من مصلحة الضرائب الأخرى، وتحسين أداء العديد من نماذج Sota السابقة. علاوة على ذلك، بالنسبة للنماذج الحالية التي لا تدعم جيل SQL القابل للتنفيذ، يمكنك استخدامها NATSQL بسهولة من إنشاء استعلامات SQL القابلة للتنفيذ، وتحقق دقة تنفيذ الحالة الجديدة من بين الفن.
البيانات القوية وبأسعار معقولة في المجال هي أصل مرغوب فيه عند نقل المحللين الدلاليين المدربين إلى مجالات جديدة.نظرا لأن الأساليب السابقة لإنشاء مثل هذه البيانات نصف تلقائيا لا يمكن أن تتعامل مع تعقيد استفسارات SQL الواقعية، نقترح بناء استفسارات SQL ع بر أخذ العينات التي تعتمد على السياق، وقدم مفهوم الموضوع.جنبا إلى جنب مع طريقة البناء الخاصة بنا SQL، نقترح خط أنابيب رواية من إنشاء بيانات النصوص شبه التلقائي Text-to-sql تغطي مساحة واسعة من استعلامات SQL.نظهر أن مجموعة البيانات التي تم إنشاؤها قابلة للمقارنة مع شروح الخبراء على طول أبعاد متعددة، وهي قادرة على تحسين أداء نقل المجال لمحلل سوتا الدلالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا