ترغب بنشر مسار تعليمي؟ اضغط هنا

حضور وحفظ وتوليد: نحو جيل مخلص إلى النص إلى النص في بعض الطلقات

Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation in Few Shots

393   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الجيل القليل من طاولة النصوص إلى النص هو مهمة تأليف الجمل الطلالية والمخمة لنقل محتوى الجدول باستخدام بيانات محدودة. على الرغم من الجهود التي بذلت العديد من الجهود نحو توليد جمل بطلاقة مثيرة للإعجاب من خلال ضبط طرازات لغة قوية مدربة مسبقا، لا يزال بإصلاح المحتوى الذي تم إنشاؤه يحتاج إلى تحسين. تحقيقا لهذه الغاية، تقترح هذه الورقة نهجا جديدا يحضر، وحفظ وتوليد (يسمى AMG)، مستوحاة من عملية توليد النص للبشر. على وجه الخصوص. (2) يحفظ ديناميكيا حالات مخصصات فتحة الجدول؛ و (3) يولد جمل مخلصة وفقا لحالات سياق وتخصيص الذاكرة. تشير التجارب الشاملة إلى التقييم البشري على ثلاثة مجالات (أي البشر، الأغاني، والكتب) من مجموعة بيانات الويكي أن نموذجنا يمكن أن يولد نصوص مؤهلة أعلى عند مقارنتها مع العديد من خطوط الأساس الحديثة، في كل من الطلاقة والإخلاص.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت نماذج جيل الجدول إلى النص العصبي تقدما ملحوظا في صفيف المهام.ومع ذلك، نظرا لطبيعة البيانات الجائعة للبيانات النماذج العصبية، تعتمد عروضها بقوة على أمثلة تدريبية واسعة النطاق، مما يحد من تطبيقها في تطبيقات العالم الحقيقي.لمعالجة هذا، نقترح إطارا جديدا: النموذج الأولي إلى إنشاء (P2G)، لجيل الجدول إلى النص تحت سيناريو القليل من اللقطات.يستخدم الإطار المقترح النماذج الأولية المستردة، التي تم اختيارها بشكل مشترك من قبل نظام IR ومحدد نموذج أولي جديد لمساعدة النموذج الذي سد الفجوة الهيكلية بين الجداول والنصوص.النتائج التجريبية على ثلاثة مجموعات بيانات معيار مع ثلاث نماذج أحدث من النماذج توضح أن الإطار المقترح يحسن بشكل كبير من أداء النموذج عبر مختلف مقاييس التقييم.
تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي لل مخططات، التي تهدف إلى تشجيع المزيد من البحث في هذا المجال الهام.على وجه التحديد، نقدم إطارا جديدا ينشئ المخططات ووصفها التحليلي تلقائيا.أجرينا تقييما واسع النطاق للإنسان والآلات على الرسوم البيانية والأوصاف التي تم إنشاؤها وإظهار أن النصوص التي تم إنشاؤها مفيدة ومتماسكة وذات صلة بالمخططات المقابلة.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا