ترغب بنشر مسار تعليمي؟ اضغط هنا

استكشاف الترميز الهيكلية لتوليد البيانات إلى النص

Exploring Structural Encoding for Data-to-Text Generation

383   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا للتدريب الفعال من خلال التدريب والطلاقة في النصوص المتولدة، يتم اقتراح العديد من النماذج القائمة على إطار ترميز وحدة فك الترميز في مؤخرا للأجيال إلى نص البيانات. الترميز المناسب لبيانات الإدخال هو جزء أساسي من نماذج وحدة فك التشفير هذه. ومع ذلك، ركزت فقط عدد قليل من الأعمال البحثية على أساليب الترميز السليم. تعرض هذه الورقة نموذجا جديدا لتنسيق البيانات إلى ترميز ترميز الترميز، حيث يرميز التشفير المقترح بعناية بيانات الإدخال وفقا للهيكل الأساسي للبيانات. يتم تقييم فعالية التشفير المقترح على حد سواء على حد سواء على حد سواء من خلال بيانات الإدخال خارج نطاق البيانات دون تغيير معنى تلك البيانات. لاختيار معلومات المحتوى المناسبة في البيانات المشفرة من التشفير، يشتمل النموذج المقترح على بوابات الاهتمام في وحدة فك الترميز. مع تجارب واسعة على DataSet Wikibio و E2E، نوضح أن النموذج لدينا يفوق على أحدث النماذج والعديد من أنظمة خط الأساس القياسية. تحليل النموذج من خلال اختبارات الأزمة المكونة والتقييم البشري يؤيد النموذج المقترح كنظام مؤلف جيدا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما ذج توليد المدى التي تنفذ الرسوم البيانية التي لفظها RDF (إطار وصف الموارد) نص يحتوي على تذرف من الكيانات التي تحدث في RDF إدخال. هذا مهم مثل رودس موضوع وكيانات الكائنات التي تشكل 2/3 من المدخلات. نحن نستخدم المقياس الخاص بنا بمقارنة 25 نماذج من المهام المشتركة Webnlg وندرش الارتباط بنتائج التقييمات البشرية للكفايات الدلالية. نظرا لأنه بينما يرتبط متري لدينا مع درجات التقييم البشري، يختلف هذا الارتباط مع تفاصيل إعداد التقييم البشري. هذا يشير إلى أنه من أجل قياس كفاية الكيان التي تتخذ من النصوص التي تم إنشاؤها، قد يكون متريا أوتوماتيا مثل المرء المقترح هنا أكثر موثوقية، حيث كان أقل عرضية وأكثر ركزا على اللفظ الصحيح للمدخلات، من تدابير التقييم البشرية.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش رة على شرائح النص الجار، عن طريق إدخال أو استبدالها بأجيال مبنية جزئيا.تتطلب التقنيات القياسية للتدريب مثل هذه السياسة عن اشتقاق أوراكل لكل جيل، ونثبت أن العثور على أقصر مثل هذا الاشتقاق يمكن تخفيضها إلى التحليل تحت قواعد محددة معينة خالية من السياق.نجد أن السياسات المستفادة بهذه الطريقة تؤدي على قدم المساواة مع خطوط أساس قوية من حيث التقييم التلقائي والبشري، ولكن السماح لمزيد من الجيل القابل للتفسير والتحكم.
QuestEval هو مقياس مرجع أقل استخداما في مهام النص إلى النص، مما يقارن الملخصات التي تم إنشاؤها مباشرة إلى النص المصدر، من خلال طرح الأسئلة والرد عليها تلقائيا.إن التكيف مع مهام البيانات إلى النص ليس واضحا، لأنه يتطلب جيل سؤال متعدد الوسائط وأنظمة الر د على المهام المدروسة، والتي نادرا ما تكون متاحة.لهذا الغرض، نقترح طريقة لبناء كورسيا متعددة الوسائط الاصطناعية تمكين لتدريب مكونات متعددة الوسائط لمكيانية بيانات Questeval.المقياس الناتج هو المرجع أقل و multimodal؛يحصل على ارتباطات حديثة مع حكم بشري على معايير Webnlg ويكيبيو.نجعل رمز ونماذج بيانات Questeval للبيانات المتاحة لغرض الاستيلاء، كجزء من مشروع Questeval.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا