على الرغم من نجاحهم، فإن نماذج اللغة الحديثة هشة.حتى التغييرات الصغيرة في خط أنابيب التدريب يمكن أن تؤدي إلى نتائج غير متوقعة.ندرس هذه الظاهرة من خلال فحص متانة ألبرت (LAN et al.، 2020) بالاشتراك مع متوسط وزن الأسكاستك (SWA) --- طريقة رخيصة للكمية --- على مهمة تحليل المعنويات (SST-2).على وجه الخصوص، نقوم بتحليل استقرار SWA من خلال معايير قائمة مرجعية (Ribeiro et al.، 2020)، فحص اتفاقية الأخطاء التي تصنعها النماذج المختلفة فقط في بذورها العشوائية.نحن نفترض أن SWA أكثر استقرارا لأنها تقع على فرق اللقطات النموذجية التي اتخذت على طول مسار نزول التدرج.نحن نحدد الاستقرار من خلال مقارنة أخطاء النماذج مع Fleiss 'Kappa (Fleiss و 1971) وتتداخل درجات النسبة.نجد أن SWA تقلل من معدلات الخطأ بشكل عام؛ومع ذلك، لا تزال النماذج تعاني من تحيزاتها المميزة (وفقا لقائمة مرجعية).
Despite their success, modern language models are fragile. Even small changes in their training pipeline can lead to unexpected results. We study this phenomenon by examining the robustness of ALBERT (Lan et al., 2020) in combination with Stochastic Weight Averaging (SWA)---a cheap way of ensembling---on a sentiment analysis task (SST-2). In particular, we analyze SWA's stability via CheckList criteria (Ribeiro et al., 2020), examining the agreement on errors made by models differing only in their random seed. We hypothesize that SWA is more stable because it ensembles model snapshots taken along the gradient descent trajectory. We quantify stability by comparing the models' mistakes with Fleiss' Kappa (Fleiss, 1971) and overlap ratio scores. We find that SWA reduces error rates in general; yet the models still suffer from their own distinct biases (according to CheckList).
المراجع المستخدمة
https://aclanthology.org/
اجتذبت تحليل المعنويات الفئة في الآراء اهتمام الأبحاث المتزايد.تستخدم الأساليب المهيمنة نماذج لغة مدربة مسبقا عن طريق تعلم تمثيلات فعالة من الفئة من الفئة، وإضافة طبقات إخراج محددة إلى تمثيلها المدرب مسبقا.نحن نعتبر طريقة أكثر مباشرة لاستخدام نماذج ا
نحن ندرس تصنيف التفضيل المقارن (CPC) الذي يهدف إلى التنبؤ بما إذا كان مقارنة الأفضلية موجودة بين كيانين في عقوبة معينة، وإذا كان الأمر كذلك، فهذا، يفضل الكيان على الآخر. يمكن أن نماذج CPC عالية الجودة تستفيد بشكل كبير تطبيقات مثل السؤال المقارن الرد
تقدم هذه الورقة المهمة المشتركة 2021 على تحليل المشاعر الأبعاد للنصوص التعليمية التي تسعى إلى تحديد درجة المعنويات ذات القيمة الحقيقية لتعليقات التقييم الذاتي كتبها الطلاب الصينيين في كل من التكافؤ والأبعاد الإثراية.يمثل Valence درجة المشاعر اللطيفة
تحظى بشعبية تطبيق النماذج العصبية القائمة على الرسم البياني في دراسات تحليل المعفاة القائمة على الجانب القائم على الجانب (ABSA) لاستخدام علاقات الكلمة من خلال يوزع التبعية لتسهيل المهمة مع التوجيه الدلالي الأفضل لتحليل السياق والكلمات. ومع ذلك، فإن م
يركز تحليل المعنويات المستندة إلى جانب جوانب (ABASA) عادة على استخراج الجوانب والتنبؤ بمشاعرهم على جمل فردية مثل مراجعات العملاء. في الآونة الأخيرة، تلقت منصة أخرى من برنامج تقاسم الرأي، وهي منتدى الإجابة على السؤال (QA)، شعبية متزايدة، التي تتراكم ع