ترغب بنشر مسار تعليمي؟ اضغط هنا

تودا-استسعة @ Reprogen: إعادة التقرير من التقييم البشري لجيل النص إلى النص إلى النص

TUDA-Reproducibility @ ReproGen: Replicability of Human Evaluation of Text-to-Text and Concept-to-Text Generation

814   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة البيانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تفترض الدراسات المسبقة عن جيل النص إلى النص عادة أن النموذج يمكن أن يكتشف ما هو الحضور في المدخلات وما يجب تضمينه في الإخراج عبر التعلم SEQ2SEQ، مع فقط بيانات التدريب الموازي وليس هناك إرشادات إضافية. ومع ذلك، لا يزال غير واضح ما إذا كانت النماذج الح الية يمكن أن تحافظ على مفاهيم مهمة في مدخلات المصدر، حيث لا يكون لتعلم SEQ2SeQ تركيز صريح على المفاهيم ومقاييس التقييم الشائعة الاستخدام تعاملها بنفس القدر من الأهمية بنفس القدر من الأهمية. في هذه الورقة، نقدم تحليلا منهجيا يدرس ما إذا كانت نماذج SEQ2SEQ الحالية، خاصة نماذج اللغة المدربة مسبقا، جيدة بما يكفي للحفاظ على مفاهيم الإدخال المهمة وإلى أي مدى توجيه الجيل الصريح مع مفاهيم القيود المعجمية مفيدة. نجيب على الأسئلة المذكورة أعلاه من خلال إجراء تجارب تحليلية مكثفة على أربع مهام توليد نصية ممثلة للنص. بناء على الملاحظات، فإننا نقترح بعد ذلك إطارا بسيطا بعد فعالا لاستخراج مفاهيم الإدخال والانحدار وفرضها تلقائيا كقيود معجمية. تؤدي هذه الطريقة الجديدة بشكل مبادل أو أفضل من نظيرها غير المقيد في المقاييس التلقائية، ويوضح تغطية أعلى للحفاظ على المفهوم، وتتلقى تصنيفات أفضل في التقييم البشري. يتوفر الكود الخاص بنا في https://github.com/morningmoni/ede.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
نحن نحفز واقتراح مجموعة من التحسينات البسيطة ولكنها فعالة لتوليد مفهوم إلى نص يسمى الياقوت: تعيين تعزز وبصورة ما بعد هوك تستلزم وإعادة التركيب.نوضح فعاليتها في مجال المنطق المنطقي الإنتاجية، A.K.a. مهمة Commongen، من خلال تجارب باستخدام نماذج BART و T5.من خلال التقييم التلقائي والبشري الواسع، نعرض أن الياقوت يحسن بشكل ملحوظ أداء النموذج.يوضح التحليل النوعي المتعمق أن الياقوت يتناول بفعالية العديد من القضايا من الأجيال النموذجية الأساسية، بما في ذلك قلة المنطقية وغير كافية من الخصوصية والطلاقة الفقراء.
يُبيّن هذا البحث مفهوم نحو الجملة، و مفهوم نحو النص، و الفروق بينهما، و مجالات كلٍّ منهما، كما يحاول أن يُحدّد المعوّقات التي تمنع تقدّم هذا النوع من الدرس اللغوي في جامعاتنا العربية، ثم يتوقّف عند اتّجاهات الدراسات اللغويّة التي ظهر فيها هذا النو ع من الدرس اللغوي، كما يحاول رصد واقع هذا الدرس اللساني في الجامعات السورية، من خلال نموذج واحد، هو جامعة البعث، و يختم البحث بأهم النتائج و التوصيات التي يرى أنها يمكن أن تسهم بتطوير هذا النوع من الدرس اللساني.
يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا