ترغب بنشر مسار تعليمي؟ اضغط هنا

إرشادات التقييم للتعامل مع الظواهر الضمنية لتقييم التوظيف في جيل البيانات إلى النص

Evaluation Guidelines to Deal with Implicit Phenomena to Assess Factuality in Data-to-Text Generation

709   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
تعد تسجيل الإجابة القصيرة مهمة تقييم صحة نص قصير معين كاستجابة للسؤال الذي يمكن أن يأتي من مجموعة متنوعة من السيناريوهات التعليمية.كما هو المحتوى الوحيد، وليس النموذج، أمر مهم، يجب ألا يهم الصياغة الدقيقة بما في ذلك صريح الإجابة.ومع ذلك، فإن العديد م ن نماذج التسجيل الحديثة تعتمد بشدة على المعلومات المعجمية، سواء كانت تضمين كلمة في شبكة عصبية أو غرام N في SVM.وبالتالي، فإن الصياغة الدقيقة للإجابة قد تحدث فرقا كبيرا.لذلك نحن نحدد إلى أي مدى تحدث ظاهرة اللغة الضمنية في مجموعات بيانات الإجابة القصيرة وفحص التأثير لديهم على أداء التسجيل التلقائي.نجد أن مستوى الضمنية يعتمد على السؤال الفردي، وأن بعض الظواهر متكررة للغاية.حل الصياغة الضمنية للتركيز الصريح تميل بالفعل إلى تحسين أداء التسجيل التلقائي.
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا