تقترح هذه الورقة AEDA (أداة تكبير البيانات أسهل) للمساعدة في تحسين الأداء في مهام تصنيف النص.يتضمن AEDA إدراج عشوائي فقط من علامات الترقيم في النص الأصلي.هذه تقنية أسهل لتنفيذ تكبير البيانات من طريقة EDA (Wei و Zou، 2019) مقارنة نتائجنا.بالإضافة إلى ذلك، فإنه يحتفظ بترتيب الكلمات أثناء تغيير مواقعهم في الجملة المؤدية إلى أداء أفضل معمم.علاوة على ذلك، فإن عملية الحذف في إيدا يمكن أن تسبب فقدان المعلومات التي، بدورها تضلل الشبكة، في حين أن Aeda يحافظ على جميع معلومات الإدخال.بعد خط الأساس، نقوم بإجراء تجارب على خمسة مجموعات بيانات مختلفة لتصنيف النص.نظهر باستخدام البيانات المعززة AEDA للتدريب، تظهر النماذج أداء فائقا مقارنة باستخدام البيانات المعززة إيدا في جميع مجموعات البيانات الخمسة.سيتم توفير شفرة المصدر لمزيد من الدراسة واستنساخ النتائج.
This paper proposes AEDA (An Easier Data Augmentation) technique to help improve the performance on text classification tasks. AEDA includes only random insertion of punctuation marks into the original text. This is an easier technique to implement for data augmentation than EDA method (Wei and Zou, 2019) with which we compare our results. In addition, it keeps the order of the words while changing their positions in the sentence leading to a better generalized performance. Furthermore, the deletion operation in EDA can cause loss of information which, in turn, misleads the network, whereas AEDA preserves all the input information. Following the baseline, we perform experiments on five different datasets for text classification. We show that using the AEDA-augmented data for training, the models show superior performance compared to using the EDA-augmented data in all five datasets. The source code will be made available for further study and reproduction of the results.
المراجع المستخدمة
https://aclanthology.org/
حقق نهج تكبير البيانات والضيقات الخصم مؤخرا نتائج واعدة في حل المشكلة المفرطة في العديد من مهام معالجة اللغة الطبيعية (NLP) بما في ذلك تصنيف المعنويات. ومع ذلك، فإن الدراسات الحالية التي تهدف إلى تحسين قدرة التعميم من خلال زيادة البيانات التدريبية مع
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال
تصف هذه الورقة مشاركة فريق UOB-NLP في SubTask SubTask المشترك 7A.كانت المهمة تهدف إلى اكتشاف ذكر المهن في نص وسائل التواصل الاجتماعي.جرب فريقنا بطريقتين لتحسين أداء النماذج المدربة مسبقا: على وجه التحديد، جربنا مع زيادة البيانات من خلال الترجمة ودمج
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك