ترغب بنشر مسار تعليمي؟ اضغط هنا

تشييد نصف تلقائي لبيانات نص إلى SQL لنقل النطاق

Semi-Automatic Construction of Text-to-SQL Data for Domain Transfer

214   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

البيانات القوية وبأسعار معقولة في المجال هي أصل مرغوب فيه عند نقل المحللين الدلاليين المدربين إلى مجالات جديدة.نظرا لأن الأساليب السابقة لإنشاء مثل هذه البيانات نصف تلقائيا لا يمكن أن تتعامل مع تعقيد استفسارات SQL الواقعية، نقترح بناء استفسارات SQL عبر أخذ العينات التي تعتمد على السياق، وقدم مفهوم الموضوع.جنبا إلى جنب مع طريقة البناء الخاصة بنا SQL، نقترح خط أنابيب رواية من إنشاء بيانات النصوص شبه التلقائي Text-to-sql تغطي مساحة واسعة من استعلامات SQL.نظهر أن مجموعة البيانات التي تم إنشاؤها قابلة للمقارنة مع شروح الخبراء على طول أبعاد متعددة، وهي قادرة على تحسين أداء نقل المجال لمحلل سوتا الدلالي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد تعلم محاذاة جدول النص أمرا ضروريا للمهام مثل النص إلى SQL. يحتاج النموذج إلى التعرف بشكل صحيح على مراجع اللغة الطبيعية إلى الأعمدة والقيم وإيصارها في مخطط قاعدة البيانات المحدد. في هذه الورقة، نقدم رواية خاضعة للإشراف على أساس إشراف الإشراف على إ نشاء هيكل (Stred) للنص إلى SQL والتي يمكن أن تتعلم بفعالية لالتقاط محاذاة جدول النصوص بناء على كوربوس نصي متوازي للنص. نحدد مجموعة من المهام التي تحذر الرواية: تأريض العمود، والتأريض القيمة ورسم الخرائط ذات القيمة العمودية، والاستفادة منهم للتأمر بتشمس الجدول النصي. بالإضافة إلى ذلك، لتقييم الأساليب المختلفة في إطار إعدادات محاذاة النصوص النصية أكثر واقعية، نقوم بإنشاء تقييم جديد تم تعيين العنكبوت على أساس مجموعة ديف العنكبوت مع إزالته الصريحة لأسماء الأعمدة التي تمت إزالتها، واعتماد ثمانية مجموعات بيانات نصية إلى SQL الحالية تقييم قاعدة البيانات. Werug يجلب تحسنا كبيرا على Bertlarge في جميع الإعدادات. بالمقارنة مع طرق الاحتجاج الحالية مثل Grappa، تحقق Strech أداء مماثل على العنكبوت، وتتفوق على جميع خطوط الأساس على مجموعات أكثر واقعية. سيكون جميع التعليمات البرمجية والبيانات المستخدمة في هذا العمل مفتوحة لتسهيل البحث في المستقبل.
تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس أل البشر عن البيانات التي يحتاجونها أو فضولها.في هذا العمل، نطلق سراح SEDE، مجموعة بيانات مع 12،023 أزواج من الكلام واستفسارات SQL التي تم جمعها من الاستخدام الحقيقي على موقع Stack Exchange.نظظ أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات في العالم الحقيقي والتي نادرا ما تنعكس حتى الآن في أي مجموعة بيانات تحليل دلالية أخرى، اقترح متري تقييم استنادا إلى مقارنة بنود الاستعلام الجزئي الأكثر ملاءمة لاستفسارات العالم الحقيقي، وإجراء تجاربمع خطوط أساس قوية، تظهر فجوة كبيرة بين الأداء على SEDE مقارنة مع مجموعات البيانات الشائعة الأخرى.
يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه، في هذه الورقة نركز على التبسيط.نبدأ بإعادة بناء DUORAT، وإعادة تنفيذ طراز Rat-Art-Art-Art الذي يعكس RAT-SQL باستخدام محولات العلاقات أو الفانيليا فقط كقطات بناء.نحن نؤدي العديد من التجارب الاجتثاث باستخدام Duorat كنموذج الأساس.تقوم تجاربنا بتأكيد فائدة بعض التقنيات وأشرح التكرار للآخرين، بما في ذلك ميزات وميزات SQL الهيكلية التي ترتبط بالسؤال مع المخطط.
في الآونة الأخيرة، حقق نموذج لغوي كبير مدرب مسبقا يسمى T5 (محول نقل النصوص الموحد للنصوص) أداء حديثة في العديد من مهام NLP.ومع ذلك، لم يتم العثور على أي دراسة باستخدام هذا النموذج المدرب مسبقا على تبسيط النص.لذلك في هذه الورقة، نستكشف استخدام T5 Bric k-Tuning على تبسيط النص الجمع بين آلية يمكن التحكم فيها لتنظيم مخرجات النظام التي يمكن أن تساعد في إنشاء نص مكيفات للجماهير المستهدفة المختلفة.تبين تجاربنا أن نموذجنا يحقق نتائج رائعة مع مكاسب بين +0.69 و +1.41 عبر أحدث الولاية الحالية (بارت + الوصول).نقول أن استخدام نموذج مدرب مسبقا مثل T5، المدربين على عدة مهام مع كميات كبيرة من البيانات، يمكن أن يساعد في تحسين تبسيط النص.
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr ansprompt، إطار مطالب قابل للتحويل لتعلم قليل من الطلقات عبر مهام مماثلة. في Transprompt، نحن نوظف إجراءات اقتناء المعرفة متعددة المهام لتدريب المتعرية التي تلتقط المعرفة القابلة للتحويل المهمة. تم تصميم متزحاب تقنيات التغذيتين لجعلها أكثر ملاءمة وغير مرغوبة وغير متحيزة تجاه أي مهام. بعد ذلك، يمكن تكييف المتعلم التعريف مع المهام المستهدفة بدقة عالية. تبين تجارب واسعة أن Transprompt تفوقت على المهمة المفردة والاستصراد القوي عبر المهام عبر مهام NLP متعددة ومجموعات البيانات. نؤدي كذلك إلى أن المتعلم التلوي يمكن أن يحسن بشكل فعال الأداء على المهام غير المرئية مسبقا؛ وتتفوق TransPrompt أيضا على خطوط خطوط خطوط خطوط وطنية قوية عند التعلم مع مجموعات تدريب كاملة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا