ترغب بنشر مسار تعليمي؟ اضغط هنا

كيف تعزز نماذج تأثير البيانات المعزز بشكل مضاد لبناء الحوسبة الاجتماعية؟

How Does Counterfactually Augmented Data Impact Models for Social Computing Constructs?

329   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا لأن نماذج NLP منتشرة بشكل متزايد في إعدادات موقع اجتماعي مثل الكشف عن المحتوى المسيء عبر الإنترنت، فمن الضروري التأكد من أن هذه النماذج قوية. تتمثل إحدى طرق تحسين متواضع النموذج في إنشاء بيانات معدية مضادة للعمل (CAD) لنماذج التدريب التي يمكن أن تتعلم بشكل أفضل التمييز بين الميزات الأساسية وتذكير البيانات. في حين أن النماذج المدربة على هذا النوع من البيانات قد أظهرت تعميم تعميمات خارج نطاق، فلا تزال غير واضحة ما هي مصادر هذه التحسينات. نحقق في فوائد CAD لنماذج NLP الاجتماعية من خلال التركيز على ثلاثة بنيات الحوسبة الاجتماعية --- الشعور والجوعي، خطاب الكراهية. تقييم أداء النماذج المدربة مع وبدون CAD عبر أنواع مختلفة من مجموعات البيانات، نجد أنه أثناء قيام النماذج المدربة على CAD بإظهار الأداء السفلي داخل المجال، فإنهم يعممون أفضل من المجال. نحن نفث هذا التناقض الواضح باستخدام تفسيرات الجهاز والعثور على أن CAD يقلل من الاعتماد على النموذج على ميزات زائفة. الاستفادة من نطق رواية من CAD لتحليل علاقتهم بأداء نموذجي، نجد أن CAD الذي يعمل على البناء مباشرة أو مجموعة متنوعة من CAD يؤدي إلى أداء أعلى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعرض هذه الورقة تعدد الأبعاد التعدين على المحتوى الذي تم إنشاؤه من قبل المستخدم الذي تم جمعه من Newshires وخدمات الشبكات الاجتماعية بثلاث لغات مختلفة: اللغة الإنجليزية --- لغة عالية الموارد، المالطية --- لغة منخفضة الموارد، والالططية-الإنجليزية -- لغ ة تبديل الكود.العديد من طرازات لغة التصنيف العصبي المتعددة التي تلبي اللغات التي تلبيها اللغات الإنجليزية واللطاطية واللطاطية والإنجليزية وكذلك الثانية) خمسة أبعاد الرأي الاجتماعي المختلفة، وهي الذاتية، قطبية المعنويات، العاطفة والسخرية والسخرية، مقدمة.تتم مناقشة النتائج لكل نموذج تصنيف لكل البعد الاجتماعي.
محادثات طبيعية مليئة التدقيق.تحقق هذه الدراسة إذا وتفهم برت وكيفية التنقيس بثلاث تجارب: (1) دراسة سلوكية باستخدام مهمة نهرية، (2) تحليل ل Aregbeddings و (3) تحليل لآلية الاهتمام على التنقيس.توضح الدراسة السلوكية أنه بدون ضبط جيد على البيانات النظافة، لا يعاني بيرت خسارة كبيرة من الأداء عند تقديمها مقارنة بالمدخلات بطلاقة (EXP1).يكشف التحليل على أزواج الجملة الجماعية والجوزاء بطلاقة أن الطبقة الأعمق، كلما زاد مماثلة تمثيلها (EXP2).يشير هذا إلى أن الطبقات العميقة من بيرت تصبح ثابتا نسبيا للتنقيس.نحن نحدد الاهتمام كآلية محتملة يمكن أن تفسر هذه الظاهرة (EXP3).بشكل عام، تشير الدراسة إلى أن بيرت لديه معرفة بنية التنظير.نؤكد على إمكانية استخدام بيرت لفهم الكلام الطبيعي دون إزالة التنظير.
قياس الحدث أمر ضروري في فهم القصص.تأخذ هذه الورقة طريقة غير مخالفة مؤخرا للكشف عن الصيغة المستمدة من القارب الكاردينال ونظريات مفاجأة وتطبيقها على أشكال سردية أطول.نحن نحسن نموذج لغة المحولات القياسية من خلال دمج قاعدة معرفة خارجية (مشتقة من توليد اس ترجاع المعزز) وإضافة آلية ذاكرة لتعزيز الأداء في أعمال أطول.نحن نستخدم نهج رواية لاستخلاص شرح Salience باستخدام ملخصات الفصل الانحياز من شمس كوربوس للأعمال الأدبية الكلاسيكية.يوضح تقييمنا ضد هذه البيانات أن نموذج الكشف عن ملحقاتنا يحسن الأداء فوقه ونموذج اللغة غير المعدلة والذاكرة، وكلاهما ضروري لهذا التحسن.
هناك نوعان مناهضين لتسجيل الجملة الزوجية: التشفير المكونات، مما أداء الانتباه الكامل عبر زوج الإدخال، والترميزات الثنائية، والتي تعريش كل مدخلات بشكل مستقل إلى مساحة متجهية كثيفة. في حين أن التشفير المتقاطعة غالبا ما يحقق أداء أعلى، فهي بطيئة للغاية بالنسبة للعديد من حالات الاستخدام العملية. تتطلب الزيادة الثنائية، من ناحية أخرى، بيانات تدريبية كبيرة وصقل جيد على المهمة المستهدفة لتحقيق الأداء التنافسي. نقدم استراتيجية بسيطة لكنها فعالة تكافؤية تدعى Sbert المعزز، حيث نستخدم المشفرين في التسمية مجموعة أكبر من أزواج المدخلات لزيادة بيانات التدريب الخاصة ببيانات التدريب. نظرا لأنه في هذه العملية، فإن اختيار أزواج الجملة غير تافهة وحاسمة لنجاح الطريقة. نقيم نهجنا على مهام متعددة (داخل المجال) وكذلك في مهمة تكيف مجال المجال. يحقق Sbert المعزز تحصين يصل إلى 6 نقاط مقابل المجال وعلى ما يصل إلى 37 نقطة لمهام تكيف المجال مقارنة بالأداء الأصلي ثنائي التشفير.
يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأث ير على القدرات النحوية لروبيرتا، باستخدام النماذج المدربة على الأحجام الإضافية لبيانات النص الخام. أولا، نستخدم التحقيقات الهيكلية النحوية لتحديد ما إذا كانت الطرز المحددة على مزيد من البيانات ترمز كمية أعلى من المعلومات النحوية. ثانيا، نقوم بإجراء تقييم نصلي مستهدف لتحليل تأثير حجم البيانات المحدد على أداء التعميم النحوي للنماذج. ثالثا، قارنا أداء النماذج المختلفة على ثلاثة تطبيقات المصب: وضع علامات جزء من الكلام وتحليل التبعية وإعادة صياغة الحساب. نحن نتكمل دراستنا بتحليل مفاضلة التكلفة - المنفعة للتدريب مثل هذه النماذج. تظهر تجاربنا أنه في حين أن النماذج المحددة على مزيد من البيانات ترمز المزيد من المعرفة النحوية وأداء أفضل في تطبيقات المصب، فإنها لا تقدم دائما أداء أفضل عبر الظواهر الأساسية المختلفة وتأتي بتكلفة مالية وبيئية أعلى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا