حقق نهج تكبير البيانات والضيقات الخصم مؤخرا نتائج واعدة في حل المشكلة المفرطة في العديد من مهام معالجة اللغة الطبيعية (NLP) بما في ذلك تصنيف المعنويات. ومع ذلك، فإن الدراسات الحالية التي تهدف إلى تحسين قدرة التعميم من خلال زيادة البيانات التدريبية مع أمثلة مرادفة أو إضافة ضوضاء عشوائية إلى Adgeddings Word، والتي لا يمكنها معالجة مشكلة الرابطة الزائفة. في هذا العمل، نقترح إطارا لتعزيز التعزيز نهاية إلى نهاية، والذي ينفذ بشكل مشترك توليد بيانات مضادة وتصنيف المعنويات المزدوجة. نهجنا لديه ثلاث خصائص: 1) يولد المولد تلقائيا جمل هائلة ومتنوعة؛ 2) يحتوي التمييز على مؤشر للمشاعر الجانبية الأصلية ومؤشر المعنويات الجانبية الناضجة، والذي يقوم بتقييم جودة العينة الناتجة بشكل مشترك ومساعدة المولد على توليد عينات مجفوف عالية الجودة أعلى جودة؛ 3) يتم استخدام التمييز مباشرة كقسم المعنويات النهائية دون الحاجة إلى بناء واحد إضافي. تظهر تجارب واسعة أن نهجنا يتفوق على خطوط خطوط خطوط تكبير البيانات قوية على العديد من مجموعات بيانات تصنيف المعفاة القياسية. يؤكد إجراء مزيد من التحليل بمزايا نهجنا في توليد عينات تدريب أكثر تنوعا وحل مشكلة الرابطة الزائفة في تصنيف المعنويات.
Data augmentation and adversarial perturbation approaches have recently achieved promising results in solving the over-fitting problem in many natural language processing (NLP) tasks including sentiment classification. However, existing studies aimed to improve the generalization ability by augmenting the training data with synonymous examples or adding random noises to word embeddings, which cannot address the spurious association problem. In this work, we propose an end-to-end reinforcement learning framework, which jointly performs counterfactual data generation and dual sentiment classification. Our approach has three characteristics:1) the generator automatically generates massive and diverse antonymous sentences; 2) the discriminator contains a original-side sentiment predictor and an antonymous-side sentiment predictor, which jointly evaluate the quality of the generated sample and help the generator iteratively generate higher-quality antonymous samples; 3) the discriminator is directly used as the final sentiment classifier without the need to build an extra one. Extensive experiments show that our approach outperforms strong data augmentation baselines on several benchmark sentiment classification datasets. Further analysis confirms our approach's advantages in generating more diverse training samples and solving the spurious association problem in sentiment classification.
المراجع المستخدمة
https://aclanthology.org/
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب
تقترح هذه الورقة AEDA (أداة تكبير البيانات أسهل) للمساعدة في تحسين الأداء في مهام تصنيف النص.يتضمن AEDA إدراج عشوائي فقط من علامات الترقيم في النص الأصلي.هذه تقنية أسهل لتنفيذ تكبير البيانات من طريقة EDA (Wei و Zou، 2019) مقارنة نتائجنا.بالإضافة إلى
كل من قضايا أوجه القصور في البيانات والاتساق الدلالي مهم لتعزيز البيانات.معظم الطرق السابقة تعالج القضية الأولى، ولكن تجاهل المرحلة الثانية.في حالات تحليل المعنويات المستندة إلى جانب الجسيم، قد يغير انتهاك القضايا المذكورة أعلاه قطبية الجانب والمشاعر
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال
تصف هذه الورقة مشاركة فريق UOB-NLP في SubTask SubTask المشترك 7A.كانت المهمة تهدف إلى اكتشاف ذكر المهن في نص وسائل التواصل الاجتماعي.جرب فريقنا بطريقتين لتحسين أداء النماذج المدربة مسبقا: على وجه التحديد، جربنا مع زيادة البيانات من خلال الترجمة ودمج