في هذه الورقة، نستكشف تصنيف النص بالإشراف الضعيف للغاية، أي بالاعتماد فقط على النص السطحي لأسماء الطبقة. هذا إعداد أكثر تحديا من الإشراف الضعيف الذي يحركه البذور، والذي يسمح بضع كلمات البذور لكل فصل. نحن نقوم باختيار مهاجمة هذه المشكلة من منظور تعليم التمثيل --- يجب أن تؤدي تمثيلات المستندات المثالية إلى نفس النتائج نفسها بين المجموعات والتصنيف المرغوب فيه. على وجه الخصوص، يمكن للمرء أن يصنف نفس الشفرة بشكل مختلف (على سبيل المثال، استنادا إلى الموضوعات والمواقع)، لذلك يجب أن تكون تمثيلات المستندات التكيفية بأسماء الطبقة المحددة. نقترح إطار رواية X-Class لتحقيق التمثيلات التكيفية. على وجه التحديد، نقدر أولا تمثيلات الطبقة من خلال إضافة كلمة أكثر مماثلة لكل فصل إلى أن تنشأ عدم التناقض. بعد مزيج مصمم من آليات الاهتمام بالفئة، نحصل على تمثيل الوثائق من خلال متوسط تمثيلات الكلمات السياقية المرجحة. مع سابقة كل وثيقة تم تعيينها إلى أقرب فئة، فإننا نستخدمها ثم قم بمحاذاة المستندات إلى الفصول الدراسية. أخيرا، نختار المستندات الأكثر ثقة من كل كتلة لتدريب مصنف النص. تثبت تجارب واسعة أن فئة X يمكنها منافسها وحتى التوفيق على الأساليب الإشراف على البذور على البذور على 7 مجموعات من مجموعات البيانات القياسية.
In this paper, we explore text classification with extremely weak supervision, i.e., only relying on the surface text of class names. This is a more challenging setting than the seed-driven weak supervision, which allows a few seed words per class. We opt to attack this problem from a representation learning perspective---ideal document representations should lead to nearly the same results between clustering and the desired classification. In particular, one can classify the same corpus differently (e.g., based on topics and locations), so document representations should be adaptive to the given class names. We propose a novel framework X-Class to realize the adaptive representations. Specifically, we first estimate class representations by incrementally adding the most similar word to each class until inconsistency arises. Following a tailored mixture of class attention mechanisms, we obtain the document representation via a weighted average of contextualized word representations. With the prior of each document assigned to its nearest class, we then cluster and align the documents to classes. Finally, we pick the most confident documents from each cluster to train a text classifier. Extensive experiments demonstrate that X-Class can rival and even outperform seed-driven weakly supervised methods on 7 benchmark datasets.
المراجع المستخدمة
https://aclanthology.org/
أحد كتل المبنى الأولى لإنشاء مساعد صوت يتعلق بمهمة وضع علامة الكيانات أو السمات في استعلامات المستخدم. يمكن أن يكون هذا تحديا بشكل خاص عندما تكون الكيانات في العاشر من الملايين، كما هو الحال على سبيل المثال كتالوجات الموسيقى. تتطلب نماذج وضع العلامات
يتم تطبيق مصنف النصوص بانتظام على النصوص الشخصية، وترك مستخدمي هذه المصنفين عرضة لخرق الخصوصية.نقترح حلا لتصنيف النص الذي يحفظه الخصوصية التي تعتمد على الشبكات العصبية التنافعية (CNNS) والحساب الآمن متعدد الأحزاب (MPC).تتيح طريقتنا استنتاج تسمية فئة
يهدف تصنيف النص الخاضع للإشراف ضعيف إلى حثص نصوص النص من عدد قليل من كلمات البذور التي توفرها المستخدم. غالبية العمل العظمى من العمل السابق يفترض أن كلمات البذور عالية الجودة تعطى. ومع ذلك، فإن كلمات البذور المشروح للخبراء في بعض الأحيان غير تافهة لل
حقق نماذج اللغة المدربة مسبقا بشكل جيد (LMS) نجاحا هائلا في العديد من مهام معالجة اللغة الطبيعية (NLP)، لكنها لا تزال تتطلب بيانات مفرطة الحجم في مرحلة ضبط الدقيقة. ندرس مشكلة LMS المدبرة مسبقا باستخدام إشراف ضعيف فقط، دون أي بيانات معدنية. هذه المشك
نماذج NLP عرضة لهجمات تسمم البيانات.يمكن لنوع واحد من الهجوم زرع الأبعاد في نموذج عن طريق حقن الأمثلة المسمولة في التدريب، مما تسبب في نموذج الضحية لإضاءة مثيلات الاختبار التي تتضمن نمطا محددا.على الرغم من أن الدفاعات موجودة لمواجهة هذه الهجمات، فهي