ترغب بنشر مسار تعليمي؟ اضغط هنا

كفاية الدلالية القائمة على الكيان لجنة البيانات إلى النص

Entity-Based Semantic Adequacy for Data-to-Text Generation

270   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نماذج توليد المدى التي تنفذ الرسوم البيانية التي لفظها RDF (إطار وصف الموارد) نص يحتوي على تذرف من الكيانات التي تحدث في RDF إدخال. هذا مهم مثل رودس موضوع وكيانات الكائنات التي تشكل 2/3 من المدخلات. نحن نستخدم المقياس الخاص بنا بمقارنة 25 نماذج من المهام المشتركة Webnlg وندرش الارتباط بنتائج التقييمات البشرية للكفايات الدلالية. نظرا لأنه بينما يرتبط متري لدينا مع درجات التقييم البشري، يختلف هذا الارتباط مع تفاصيل إعداد التقييم البشري. هذا يشير إلى أنه من أجل قياس كفاية الكيان التي تتخذ من النصوص التي تم إنشاؤها، قد يكون متريا أوتوماتيا مثل المرء المقترح هنا أكثر موثوقية، حيث كان أقل عرضية وأكثر ركزا على اللفظ الصحيح للمدخلات، من تدابير التقييم البشرية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
QuestEval هو مقياس مرجع أقل استخداما في مهام النص إلى النص، مما يقارن الملخصات التي تم إنشاؤها مباشرة إلى النص المصدر، من خلال طرح الأسئلة والرد عليها تلقائيا.إن التكيف مع مهام البيانات إلى النص ليس واضحا، لأنه يتطلب جيل سؤال متعدد الوسائط وأنظمة الر د على المهام المدروسة، والتي نادرا ما تكون متاحة.لهذا الغرض، نقترح طريقة لبناء كورسيا متعددة الوسائط الاصطناعية تمكين لتدريب مكونات متعددة الوسائط لمكيانية بيانات Questeval.المقياس الناتج هو المرجع أقل و multimodal؛يحصل على ارتباطات حديثة مع حكم بشري على معايير Webnlg ويكيبيو.نجعل رمز ونماذج بيانات Questeval للبيانات المتاحة لغرض الاستيلاء، كجزء من مشروع Questeval.
أدت النجاحات الأخيرة في النمذجة التوليدية العميقة إلى تقدم كبير في توليد اللغة الطبيعية (NLG).أظهرت دمج الكيانات في نماذج الجيل العصبي تحسينات كبيرة من خلال المساعدة في استنتاج الموضوع الموجز وإنشاء محتوى متماسك.لتعزيز دور الكيان في NLG، في هذه الورق ة، نهدف إلى نموذج نوع الكيان في مرحلة فك التشفير لتوليد كلمات سياقية بدقة.نقوم بتطوير نموذج NLG الجديد لإنتاج تسلسل مستهدف بناء على قائمة معينة من الكيانات.يحتوي نموذجنا على وحدة فك ترميز متعددة الخطوات التي تحفز أنواع الكيان في عملية تذكر الجيل.تجارب عملاء أخبار عامين تظهر حقن النوع ينفذ أفضل من نوع خطوط خطوط أسلاف التضمين.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا