ترغب بنشر مسار تعليمي؟ اضغط هنا

Text-to-sql في البرية: مجموعة بيانات تحدث طبيعية تستند إلى بيانات تبادل المكدس

Text-to-SQL in the Wild: A Naturally-Occurring Dataset Based on Stack Exchange Data

220   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يسأل البشر عن البيانات التي يحتاجونها أو فضولها.في هذا العمل، نطلق سراح SEDE، مجموعة بيانات مع 12،023 أزواج من الكلام واستفسارات SQL التي تم جمعها من الاستخدام الحقيقي على موقع Stack Exchange.نظظ أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات في العالم الحقيقي والتي نادرا ما تنعكس حتى الآن في أي مجموعة بيانات تحليل دلالية أخرى، اقترح متري تقييم استنادا إلى مقارنة بنود الاستعلام الجزئي الأكثر ملاءمة لاستفسارات العالم الحقيقي، وإجراء تجاربمع خطوط أساس قوية، تظهر فجوة كبيرة بين الأداء على SEDE مقارنة مع مجموعات البيانات الشائعة الأخرى.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم الأزواج، أول مجموعة بيانات عربية كبيرة من المطالبات التي تحدث بشكل طبيعي تم جمعها من 5 مواقع عربية للتحقق من الحقائق، على سبيل المثال، فات بايانو ومطبقة، وتغطي المطالبات التي تغطيها منذ عام 2016. تتكون DataSet لدينا من 6،121 مطالبة جنبا إلى جنب مع ملصقاتها الواقعية والبيانات الوصفية الإضافية، مثلمع تحديد محتوى المقال عن الواقع، فئة موضحة، وروابط للمشاركات أو صفحات الويب نشر المطالبة.نظرا لأن البيانات يتم الحصول عليها من مختلف مواقع التحقق من الحقائق، فإننا نقوم بتوحيد ملصقات المطالبة الأصلية لتوفير تصنيف ملصقات موحدة لجميع المطالبات.علاوة على ذلك، نحن نقدم إحصاءات البيانات الكاشفة وتحفيز استخدامها من خلال اقتراح تطبيقات بحثية محتملة.يتم توفير مجموعة البيانات للجمهور لمجتمع البحث.
يمكن أن ترجمت نماذج النص العصبي المؤقتة مؤخرا لترجمة أسئلة اللغة الطبيعية بفعالية لاستعلامات SQL المقابلة على قواعد البيانات غير المرئية.العمل في الغالب على مجموعة بيانات العنكبوت، اقترح الباحثون حلولا متطورة بشكل متزايد للمشكلة.على عكس هذا الاتجاه، في هذه الورقة نركز على التبسيط.نبدأ بإعادة بناء DUORAT، وإعادة تنفيذ طراز Rat-Art-Art-Art الذي يعكس RAT-SQL باستخدام محولات العلاقات أو الفانيليا فقط كقطات بناء.نحن نؤدي العديد من التجارب الاجتثاث باستخدام Duorat كنموذج الأساس.تقوم تجاربنا بتأكيد فائدة بعض التقنيات وأشرح التكرار للآخرين، بما في ذلك ميزات وميزات SQL الهيكلية التي ترتبط بالسؤال مع المخطط.
تركز أساليب استخراج العلاقة الحالية (إعادة) عادة على استخراج الحقائق العلائقية بين أزواج الكيان داخل جمل أو مستندات واحدة.ومع ذلك، لا يمكن استنتاج كمية كبيرة من الحقائق العلائقية في قواعد المعرفة إلا في جميع الوثائق في الممارسة.في هذا العمل، نقدم مشك لة إعادة الوثيقة العملية، مما يجعل خطوة أولية نحو اكتساب المعرفة في البرية.لتسهيل البحث، نقوم ببناء أول مجموعة بيانات عبر الوثيقة المشروح البشرية.مقارنة مع مجموعات البيانات الحالية، تقدم Codred تحديين رئيسيين: بالنظر إلى كيانين، (1) يتطلب إيجاد المستندات ذات الصلة التي يمكن أن توفر أدلة لتحديد علاقاتها؛(2) يتطلب التفكير في مستندات متعددة لاستخراج الحقائق العلائقية.نقوم بإجراء تجارب شاملة لإظهار أن Codred هو تحدي أساليب إعادة الخدمات القائمة بما في ذلك النماذج القاعدة القائمة على بيرت.
الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي لل مخططات، التي تهدف إلى تشجيع المزيد من البحث في هذا المجال الهام.على وجه التحديد، نقدم إطارا جديدا ينشئ المخططات ووصفها التحليلي تلقائيا.أجرينا تقييما واسع النطاق للإنسان والآلات على الرسوم البيانية والأوصاف التي تم إنشاؤها وإظهار أن النصوص التي تم إنشاؤها مفيدة ومتماسكة وذات صلة بالمخططات المقابلة.
تشكل الميمات البغيضة تحديا فريدا لأنظمة تعلم الآلات الحالية لأن رسالتهم مشتقة من كل من الطرائق النصية والمرئية.لهذا الغرض، أصدر Facebook تحدي الميمات البغيض، مجموعة بيانات من الميمات ذات التسميات التوضيحية النصية المستخلصة مسبقا، لكن من غير الواضح ما إذا كانت هذه الأمثلة الاصطناعية تعزز إلى الميمات في البرية ".في هذه الورقة، نقوم بجمع الميمات البغيضة وغير البغيضة من Pinterest لتقييم الأداء الخارجي على النماذج المدربة مسبقا على مجموعة بيانات Facebook.نجد أن الميمات في البرية "تختلف في جوانبين رئيسيين: 1) يجب استخراج التسميات التوضيحية عبر OCR، ضجيج حقن وتقليل الأداء من النماذج متعددة الوسائط، و 2) الميمات أكثر تنوعا من الميمات التقليدية، بما في ذلك لقطات من المحادثات أو النصفي خلفية عادية.هذه الورقة هكذا بمثابة التحقق من الواقع للمعيار الحالي للكشف عن الكراهية ومستقليها على الكشف عن الكراهية في العالم الحقيقي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا