ترغب بنشر مسار تعليمي؟ اضغط هنا

تقدير تقييمات الحشود الذاتية كهدف إضافي لتحسين توليد اللغة الطبيعية

Estimating Subjective Crowd-Evaluations as an Additional Objective to Improve Natural Language Generation

244   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد التصنيفات البشرية واحدة من أكثر الطرق سائدة لتقييم أداء خوارزميات NLP (معالجة اللغة الطبيعية). وبالمثل، من الشائع قياس جودة الجمل الناتجة عن نموذج توليد اللغة الطبيعي باستخدام الدراسات البشرية. في هذه الورقة، نقول لاستكشاف استخدام التقييمات الذاتية ضمن عملية نماذج توليد اللغة التدريب في إعداد تعليمي متعدد المهام. كدراسة حالة، نستخدم كوربا حوارا مؤلفا من الحشود لضبط ستة نماذج توليد لغة مختلفة. يتضمن اثنان من هذه النماذج تعلم المهام المتعددة واستخدام التصنيفات الذاتية للخطوط كجزء من هدف التعلم الصريح. تكشف التقييم البشري لخطوط الحوار التي تم إنشاؤها أن الكلام الناتجة عن النماذج متعددة المهام تم تصنيفها بشكل ذاتي باعتبارها الأكثر نموذجية، وتحريك المحادثة للأمام، وأقل هجومية. استنادا إلى النتائج الأولى الواعدة، نقوم بمناقشة اتجاهات البحث في المستقبل لدمج التقييمات الإنسانية الذاتية في التدريب النموذجي اللغوي وبالتالي الحفاظ على المستخدم البشري في الحلقة أثناء عملية التطوير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يشكل جيل النص المخصب المعرفي تحديات فريدة من نوعها في النمذجة والتعلم، مما يدفع البحوث النشطة في العديد من الاتجاهات الأساسية، بدءا من النمذجة المتكاملة للتمثيل العصبي والمعلومات الرمزية في الهياكل التسلسلية / الهرمية / الهرمية، والتعلم دون إشراف مبا شر بسبب تكلفة الهيكلالتعليق التوضيحي، والتحسين الفعال والاستدلال مع قيود هائلة وعالمية، على أساس اللغة على طرائق متعددة، والمنطق الاسليمي مع المعرفة المنطقية الضمنية ومعرفة الخلفية.في هذا البرنامج التعليمي، سنقدم خريطة طريق لتشكيل الأساليب الحديثة لمعالجة هذه التحديات في هذه المشكلة المتطورة.سنغمر عميقا في مكونات تقنية مختلفة: كيفية تمثيل المعرفة، وكيفية إطعام المعرفة في نموذج الجيل، وكيفية تقييم نتائج الجيل، وما هي التحديات المتبقية؟
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت ج نصا يشوه بالفعل أكثر من النموذج الأصلي.سيحري، نظهر أن استراتيجية التقييم التلقائي لدينا ترتبط جيدا بأحكام بشرية.كما ندير تحليل لغوي تكشف عن خصائص اللغة التي تتسم بها الإنسان.
نقترح نهجا لاختبار الأصالة تلقائيا في مهام الجيل حيث توجد أي تدابير تلقائية قياسية موجودة.يتناول اقتراحنا الاستخدامات الأصلية للغة، وليس بالضرورة الأفكار الأصلية.نحن نقدم خوارزمية لنهجنا وتحليل وقت التشغيل.الخوارزمية، التي تجد جميع الشظايا الأصلية في كوربوس في الحقيقة الأرضية ويمكن أن تكشف ما إذا كانت هناك نسخ جزء أصلي بدون إسناد، لديه تعقيد وقت التشغيل Theta (NLGON) حيث N هو عدد الجمل في الأرضحقيقة.
في هذه الورقة، ندرس استخدام النماذج اللغوية المدربة مسبقا لتمكين توليد لغة البندقية القليلة (NLG) في أنظمة الحوار الموجهة نحو المهام. نقدم نظاما يتكون من التدريب الذاتي التكراري وإطار قالب صغير قابل للتوسيع يتم تخصيص بيانات الإدخال المهيكلة في نص شبه طبيعي للاستفادة الكاملة من نماذج اللغة المدربة مسبقا. نحن نقارن تمثيلات Var Ious لإدخال ونماذج NLG وإخراجها وإظهار أن تحويل المدخلات والمخرجات لتكون مشابهة لما شابه نموذج اللغة من قبل أثناء التدريب المسبق يحسن أداء الطراز القليل من الطرازات. نظظ أن Mod-Els العصبي يمكن تدريبها على أساس عدد قليل من الأمثلة المشروحة مع توفير الدقة العالية، وخفضت إلى حد كبير متطلبات الموارد الخاصة بوقوف مجال جديد أو لغة. هذا مستوى كفاءة البيانات يزيل الحاجة إلى جمع بيانات الحشد مما أدى إلى جودة أعلى جودة مشروح من قبل اللغويين الخبراء. بالإضافة إلى ذلك، ستحسن عمليات صيانة النموذج والتصحيح في هذا الإعداد القليل من الرصاص. أخيرا، نستكشف تقطير واستخدام نظام التخزين المؤقت لإرضاء متطلبات الكمون لأنظمة العالم الحقيقي.
نحن نقدم جوهرة، معيار معيشة لتوليد اللغة الطبيعية (NLG)، تقييمه، ومقاييسه.تعتمد التقدم المحرز في NLG على نظام بيئي متطور باستمرار للمقاييس الآلية ومجموعات البيانات ومعايير التقييم البشري.نظرا لهذا الهدف المتحرك، لا تزال هناك نماذج جديدة غالبا ما لا ت زال تقيمت في ولاية شركات الأنجلو المتداخلة مع مقاييس راسخة ولكنها معيبة ومقاييس.هذا الفصل يجعل من الصعب تحديد قيود النماذج والفرص الحالية للتقدم.تعالج GEM في معالجة هذه القيد هذه بيئة يمكن فيها تطبيق النماذج التي يمكن فيها تطبيقها بسهولة على مجموعة واسعة من المهام والتي يمكن اختبار استراتيجيات التقييم فيها.سيؤدي تحديثات منتظمة إلى المعيار إلى مساعدة أبحاث NLG على تصبح أكثر تعددا متعددة اللغات وتتطور التحدي إلى جانب النماذج.تعمل هذه الورقة كوصف للبيانات المهمة المشتركة 2021 في ورشة عمل GEM المرتبطة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا