ترغب بنشر مسار تعليمي؟ اضغط هنا

العثور على التحيز المفسد في تغريدات التعلم الصفرية والمعارف من تبسيط النص العصبي

Finding Spoiler Bias in Tweets by Zero-shot Learning and Knowledge Distilling from Neural Text Simplification

263   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الكشف التلقائي عن معلومات المؤامرة الحرجة في مراجعات عناصر الوسائط يشكل تحديات فريدة لكل من الحوسبة الاجتماعية واللغويات الحسابية. في هذه الورقة، نقترح إلقاء مشكلة اكتشاف تحيز المفسد في الخطاب عبر الإنترنت مهمة تبسيط النص. نحن تخمين أنه بالنسبة لزوج مستخدم العنصر، فإن مراجعة المستخدم الأكثر بساطة نتعلمه من ملخص عنصر أعلى احتمال تقديم المفسد. يشتمل نموذجنا العصبي على شبكة المحولات المتقدمة لتحتل شدة المفسد في تغريدات المستخدم. شيدنا مجموعة بيانات مستدامة مفلصة عالية الجودة كشط من تغريدات مراجعة غير مرغوبة وقترن بملخص العنوان وبيانات meta المستخرجة من مجال معين من الفيلم. إلى حد كبير، فإن نتائجنا الكمية والنوعية تزن في تأثير أداء وجود الكيان المسمى في ملخصات المؤامرة. أحصى ما يلاحظه على تقسيم وإعادة صياغة التراسل مع المعرفة المقطوعة من الإنجليزية في ويكيبيديا ومضربتها بشكل جيد في مجموعة بيانات الأفلام لدينا، فإن نموذجنا العصبي يظهر لتفوق كلا من خطوط طراز لغة وطيور أحادية الترجمة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح مهمة مشتركة على اختيار مثيل التدريب لعدد قليل من الجيل العصبي العصبي.أدت نماذج اللغة المحددة مسبقا على نطاق واسع إلى تحسينات مثيرة في جيل نص قليل.ومع ذلك، فإن كل العمل السابق تقريبا يطبق ما عليك سوى أخذ عينات عشوائية لتحديد مثيلات التدريب القلي لة.لقد تم إيلاء الاهتمام ليس إلى استراتيجيات الاختيار وكيف سيؤثرون على أداء النموذج.دراسة استراتيجية الاختيار يمكن أن تساعدنا (1) الاستفادة القصوى من ميزانية التوضيحية الخاصة بنا في مهام المصب و (2) من أفضل النماذج الإندارية النصية ذات القليل من القصاصات.نرحب بالتقديمات التي تقدم استراتيجيات اختيارها والآثار على جودة الجيل.
التصنيف العاطفي هو مهمة ربط النص تلقائيا بمشاعر بشرية.عادة ما يتم تعلم النماذج من أحدث النماذج باستخدام كورسا المشروح أو الاعتماد على المعجم العاطفي المصنوعة يدويا.نقدم نموذج تصنيف العاطفة لا يتطلب أن تكون كوربوس مشروحة كبيرة تنافسية.نقوم بتجربة نماذ ج اللغة المسبقة مسبقا في كل من طلقة صفرية وعدد قليل من التكوين.نبني العديد من هذه النماذج ونظرا لهم بأنها متحيزة، صاخبة صاخبة، أدائها الفردي ضعيف.نحن نكمل تنبؤات هذه النماذج باستخدام طريقة بايزي تطورت أصلا لشرائيات النمذجة الجماعية.بعد ذلك، نظهر أن النظام الناتج يؤدي أفضل من أقوى النموذج الفردي.أخيرا، نظهر أنه عند التدريب على عدد قليل من البيانات المسمى، تتفوق أنظمتنا النماذج الخاضعة للإشراف بالكامل.
البناء التلقائي لقواعد المعرفة ذات الصلة (KBS) من النص، وتوليد نص مغزى من KBS هما أهداف طويلة الأمد في تعلم الآلات. في هذه الورقة، نقدم Regen، وهي جيل ثنائي الاتجاه من النص والرأس الرسم البياني الاستفادة من التعزيز لتعزيز الأداء. يتيح لنا الخطية الرس م البياني إعادة تأكيد المهام كسلسلة لتسليم توليد التسلسل بغض النظر عن الاتجاه الإداري، والذي يسمح بدوره لاستخدام التعزيز التعزيز لتدريب التسلسل حيث يعمل النموذج نفسه كناقد خاص به تدريب التسلسل (SCST). نقدم إجراء تحقيق واسع النطاق الذي يوضح أن استخدام RL عبر فوائد SCST Grape و جيل النص على Datasets Webnlg + 2020 و Tekgen. يوفر نظامنا نتائج حديثة على Webnlg + 2020 من خلال تحسين النتائج المنشورة بشكل كبير من تحدي Webnlg 2020+ لكل من مهام جيل الرسائل النصية إلى الرسم البيانية والرسوم البيانية. مزيد من التفاصيل في https://github.com/ibm/regen.
العثور على مشاركات Covid-19 Information في مجرى تغريدات مفيدة للغاية لمراقبة التحديثات المتعلقة بالصحة.يعمل العمل السابق على إعداد بيانات متوازن وعلى اللغة الإنجليزية، ولكن تغريدات مفيدة نادرة، والإنجليزية ليست سوى واحدة من العديد من اللغات التي يتحد ث بها في العالم.في هذا العمل، نقدم مجموعة بيانات جديدة تبلغ 5000 تغريدات للعثور على تغريدات Covid-19 مفيدة لدنماركي.على عكس العمل المسبق، الذي يوازن بين توزيع الملصقات، نقوم بالنماذج المشكلة عن طريق الحفاظ على توزيعها الطبيعي.نحن ندرس مدى أداء نموذج الاحتمالية البسيط والشبكة العصبية التنافسية (CNN) في هذه المهمة.نجد CNN مرجح للعمل بشكل جيد ولكنها حساسة لتضمين وخيارات HyperParameter.نأمل أن تكون DataSet المساهمة نقطة انطلاق لمزيد من العمل في هذا الاتجاه.
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا