تطبيق طريقة المزيج في مهمة تصنيف المستندات باستخدام Bert


الملخص بالعربية

من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول تطبيق طريقة المزيج إلى مهمة تصنيف المستندات باستخدام تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) (ديفلين وآخرون، 2018). نظرا لأن Bert يسمح بإدخال الإصدارين من الجملة، فإننا نسقط تسلسل الكلمات من مستندتين مع ملصقتين مختلفتين واستخدمت الإخراج متعدد الفصول كبيانات خاضعة للإشراف مع ناقل ساخن واحد. في تجربة باستخدام Corpus أخبار Livedoor، وهي اليابانية، قارننا دقة تصنيف المستندات باستخدام طريقتين لاختيار المستندات المراد متسلسلا بتصنيف المستندات العادي. نتيجة لذلك، وجدنا أن الطريقة المقترحة أفضل من التصنيف العادي عند خلط المستندات التي تحتوي على نقص التسميات بشكل تفضيلي. يشير هذا إلى أن كيفية اختيار مستندات المزيج لها تأثير كبير على النتائج.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث