ترغب بنشر مسار تعليمي؟ اضغط هنا

DART: سجل البيانات المهنية مفتوحة المجال إلى جيل النص

DART: Open-Domain Structured Data Record to Text Generation

286   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة ويحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.
نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.
أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرو اية (Plangen) لتحسين قابلية تحكم نماذج البيانات النصية العصبية.يتم إجراء تجارب واسعة من التجارب والتحليلات على مجموعة من مجموعات البيانات القياسية، Totto و Webnlg.تظهر النتائج أن نموذجنا قادر على التحكم في كل من الجملة داخل الجملة وبنية الجملة بين الإخراج الناتج.علاوة على ذلك، تظهر المقارنات التجريبية ضد الأساليب السابقة من الأساليب السابقة أن نموذجنا يحسن جودة التوليد وكذلك تنوع الإخراج عند الحكم على التقييمات البشرية والآلية.
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما ذج توليد المدى التي تنفذ الرسوم البيانية التي لفظها RDF (إطار وصف الموارد) نص يحتوي على تذرف من الكيانات التي تحدث في RDF إدخال. هذا مهم مثل رودس موضوع وكيانات الكائنات التي تشكل 2/3 من المدخلات. نحن نستخدم المقياس الخاص بنا بمقارنة 25 نماذج من المهام المشتركة Webnlg وندرش الارتباط بنتائج التقييمات البشرية للكفايات الدلالية. نظرا لأنه بينما يرتبط متري لدينا مع درجات التقييم البشري، يختلف هذا الارتباط مع تفاصيل إعداد التقييم البشري. هذا يشير إلى أنه من أجل قياس كفاية الكيان التي تتخذ من النصوص التي تم إنشاؤها، قد يكون متريا أوتوماتيا مثل المرء المقترح هنا أكثر موثوقية، حيث كان أقل عرضية وأكثر ركزا على اللفظ الصحيح للمدخلات، من تدابير التقييم البشرية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا