ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج، Denoise وفرضه: تقييم وتحسين الحفاظ على المفهوم لجيل النص إلى النص

Extract, Denoise and Enforce: Evaluating and Improving Concept Preservation for Text-to-Text Generation

635   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تفترض الدراسات المسبقة عن جيل النص إلى النص عادة أن النموذج يمكن أن يكتشف ما هو الحضور في المدخلات وما يجب تضمينه في الإخراج عبر التعلم SEQ2SEQ، مع فقط بيانات التدريب الموازي وليس هناك إرشادات إضافية. ومع ذلك، لا يزال غير واضح ما إذا كانت النماذج الحالية يمكن أن تحافظ على مفاهيم مهمة في مدخلات المصدر، حيث لا يكون لتعلم SEQ2SeQ تركيز صريح على المفاهيم ومقاييس التقييم الشائعة الاستخدام تعاملها بنفس القدر من الأهمية بنفس القدر من الأهمية. في هذه الورقة، نقدم تحليلا منهجيا يدرس ما إذا كانت نماذج SEQ2SEQ الحالية، خاصة نماذج اللغة المدربة مسبقا، جيدة بما يكفي للحفاظ على مفاهيم الإدخال المهمة وإلى أي مدى توجيه الجيل الصريح مع مفاهيم القيود المعجمية مفيدة. نجيب على الأسئلة المذكورة أعلاه من خلال إجراء تجارب تحليلية مكثفة على أربع مهام توليد نصية ممثلة للنص. بناء على الملاحظات، فإننا نقترح بعد ذلك إطارا بسيطا بعد فعالا لاستخراج مفاهيم الإدخال والانحدار وفرضها تلقائيا كقيود معجمية. تؤدي هذه الطريقة الجديدة بشكل مبادل أو أفضل من نظيرها غير المقيد في المقاييس التلقائية، ويوضح تغطية أعلى للحفاظ على المفهوم، وتتلقى تصنيفات أفضل في التقييم البشري. يتوفر الكود الخاص بنا في https://github.com/morningmoni/ede.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة الب يانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
نحن نحفز واقتراح مجموعة من التحسينات البسيطة ولكنها فعالة لتوليد مفهوم إلى نص يسمى الياقوت: تعيين تعزز وبصورة ما بعد هوك تستلزم وإعادة التركيب.نوضح فعاليتها في مجال المنطق المنطقي الإنتاجية، A.K.a. مهمة Commongen، من خلال تجارب باستخدام نماذج BART و T5.من خلال التقييم التلقائي والبشري الواسع، نعرض أن الياقوت يحسن بشكل ملحوظ أداء النموذج.يوضح التحليل النوعي المتعمق أن الياقوت يتناول بفعالية العديد من القضايا من الأجيال النموذجية الأساسية، بما في ذلك قلة المنطقية وغير كافية من الخصوصية والطلاقة الفقراء.
يُبيّن هذا البحث مفهوم نحو الجملة، و مفهوم نحو النص، و الفروق بينهما، و مجالات كلٍّ منهما، كما يحاول أن يُحدّد المعوّقات التي تمنع تقدّم هذا النوع من الدرس اللغوي في جامعاتنا العربية، ثم يتوقّف عند اتّجاهات الدراسات اللغويّة التي ظهر فيها هذا النو ع من الدرس اللغوي، كما يحاول رصد واقع هذا الدرس اللساني في الجامعات السورية، من خلال نموذج واحد، هو جامعة البعث، و يختم البحث بأهم النتائج و التوصيات التي يرى أنها يمكن أن تسهم بتطوير هذا النوع من الدرس اللساني.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
نقدم نهج عصبي نهاية إلى نهج لإنشاء جمل إنجليزية من تمثيلات المعنى الرسمي، وهياكل تمثيل الخطاب (DRSS).نستخدم نموذج تسلسل ثنائي التسلسل BI-LSTM القياسي بدلا من ذلك، والعمل بتمثيل إدخال DRS SNEARIZED، وتقييم رقائق الرقص على مستوى الأحرف ومستوى الكلمات.ن حصل على نتائج مشجعة للغاية فيما يتعلق بالمقاييس التلقائية المستندة إلى المرجعية مثل بلو.ولكن نظرا لأن هذا المقاييس يقوم فقط بتقييم مستوى السطح من الإخراج الناتج، فإننا نطور متريا جديدا، وارتفعت، والتي تستهدف الظواهر الدلالية المحددة.نحن نقوم بذلك مع خمسة مجموعات تحدي جيل DRS التركيز على العدد القطبي والقطبية والكمييات المسماة.الهدف من مجموعات التحدي هذه هو تقييم تنظيمي المولد العصبي وتعميم المدخلات غير المرئية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا