ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم شامل لإحاطاء المهام الخاصة بالتلخيص

A Thorough Evaluation of Task-Specific Pretraining for Summarization

155   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تنطبق أهداف الاحتجاط بالأذرية المهمة مثل طرازات اللغة الملثمين أو التنبؤ الفاسد التالف على مجموعة واسعة من مهام الخبراء النووي (Raffel et al.، 2019)، ولكنها تفوقت من خلال أهداف محددة خاصة بمهام المهام مثل التنبؤ بنشاطات الفجوة المستخرجة عن التلخيص (Zhangوآخرون، 2020).نحن نقارن ثلاثة أهداف محددة محددة محددة مع المهمة الملحة التالفة التنبؤات الاحتمية في الدراسة التي تسيطر عليها.كما نقدم دراستنا إلى إعداد موارد منخفضة وضبط صفر، لفهم عدد أمثلة التدريب اللازمة من أجل إظهار الاحتجاج بخصوص الجودة دون فقدان الجودة.نظرا لأن نتائجنا تظهر أن الاحتجاج غير المرغوي المهمة يكفي لمعظم الحالات التي نأمل أن تقلل من الحاجة إلى الاحتجاج بمهمة المحاكمة الخاصة بالمهارات.نبلغ أيضا عن رقم أحدث جديد لمهمة التلخيص باستخدام نموذج T5 مع 11 مليار معلمة وعقوبة طول البحث الأمثل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أدت تقنيات الاحتجاج بالاستفادة من مجموعات البيانات الهائلة تقدم التطورات الأخيرة في تلخيص النص.في حين أن التفسيرات الشعبية تشير إلى أن تحويل المعرفة تحتفظ بمزايا الاحتجاط، فإن القليل معروف عن سبب عمله أو ما الذي يجعل مهمة محتملة أو مجموعة بيانات مناس بة.في هذه الورقة، نتحدى قصة نقل المعرفة، مما يدل على أن الاحيلية على المستندات التي تتألف من حرف N-gram المحدد عشوائيا، يمكننا أن نتطابق تقريبا من أداء النماذج المحددة على الفورورا الحقيقية.هذا العمل يحمل وعد بالقضاء على upstream corpora، والتي قد تخفف بعض المخاوف بشأن لغة مسيئة، التحيز، وقضايا حقوق الطبع والنشر.لمعرفة ما إذا كانت الفائدة الصغيرة المتبقية لاستخدام البيانات الحقيقية يمكن أن يتم حسابها من قبل هيكل مهمة محتملة، نقوم بتصميم العديد من المهام التي تحفزها دراسة نوعية لعلمة كورسا.ومع ذلك، فإن هذه المهام تمنح أي فائدة ملموسة، مما يترك فتح إمكانية دور صغير لنقل المعرفة.
من المعروف أن فك التشفير المباشر التجريدي للحوار الموجه في المهام يعاني من التأثير الشرح بعيدا، حيث يتجلى في النماذج التي تفضل الردود القصيرة والأعمالية.نحن هنا نقول لاستخدام نظرية بايز لتصدي مهمة الحوار إلى طرازتين، وتوزيع السياق بالنظر إلى الاستجاب ة، وقبل الاستجابة نفسها.هذا النهج، وهو مثيل لنموذج القناة الصاخبة، كلاهما يخفف من تفسير التأثير ويسمح بتدمير النماذج الكبيرة المحددة مسبقا للاستجابة السابقة.نقدم تجارب مكثفة تظهر أن نموذج قناة صاخبة يرمز أفضل ردود أفضل مقارنة بالفهرات المباشرة وأن استراتيجية الاحتجاط بمقدار مرحلتين، تستخدم بيانات الحوار المفتوحة الموجهة نحو المهام، وتحسين النماذج ذات التهيئة بشكل عشوائي.
تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأح كام البشرية محدودة بحجم هذه المجموعات. في هذه الورقة، نؤكد كيف تناقض مقاييس الموثوق بها في الأحكام الإنسانية - على حد علمنا - أكبر مجموعة من الأحكام المبلغ عنها في الأدب. يمكن القول إن تصنيفات الزوجية من أنظمتين هي المهام التقييم الأكثر شيوعا في سيناريوهات البحث أو النشر. أخذ الحكم البشري كمعيار ذهبي، فإننا نحص على ما يقسمه أعلى دقة في التنبؤ بتصنيفات جودة الترجمة لمثل هذا أزواج النظام. علاوة على ذلك، نقوم بتقييم أداء مقاييس مختلفة عبر أزواج ومجال بلغات مختلفة. وأخيرا، نوضح أن الاستخدام الوحيد لبليو يعيق تطوير النماذج المحسنة المؤدية إلى قرارات النشر السيئة. نفرج عن مجموعة من الأحكام الإنسانية الإنسانية على مستوى الجملة 2.3 مليون ل 4380 أنظمة لمزيد من التحليل وتكرار عملنا.
خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي ف ي أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.
تقدم هذه الورقة طريقة تلقائية لتقييم طبيعية توليد اللغة الطبيعية في أنظمة الحوار.في حين تم تقديم هذه المهمة من خلال العمل البشري باهظ الثمن وتستغرق وقتا طويلا، فإننا نقدم هذه المهمة الرواية التابعة لتقييم الطاقة التلقائي للغة الناتجة.من خلال ضبط نموذ ج Bert، تظهر طريقة تقييم الطبيعية المقترحة لدينا نتائج قوية وتتفوق على الأساس: آلات Vector Support، LSTMS ثنائي الاتجاه، ونفرت.بالإضافة إلى ذلك، يتم تحسين أداء سرعة التدريب وتقييم نموذج طبيعي من خلال نقل التعلم من المعرفة اللغوية بالجودة والمعلوماتية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا