تهدف استخراج الأجل إلى الجانب إلى استخراج مصطلحات الجانب من جملة مراجعة قد أعرب المستخدمين عن آرائهم.واحدة من التحديات المتبقية لاستخراج مصطلح الجانب موجودة في الافتقار إلى البيانات المشروحة المكافحة.في حين أن التدريب الذاتي يحتمل أن يكون هناك طريقة فعالة لمعالجة هذه المسألة، فإن تسميات الزائفة التي تقوم بتسليمها على البيانات غير المسبقة قد تحفز الضوضاء.في هذه الورقة، نستخدم وسيلة اثنين لتخفيف الضوضاء في الملصقات الزائفة.واحد هو أنه مستوحى من تعلم المناهج الدراسية، ونحن نؤيد التدريب الذاتي التقليدي للتدريب الذاتي التدريجي.على وجه التحديد، ينطني النموذج الأساسي بالملصقات الزائفة في مجموعة فرعية تقدمية في كل تكرار، حيث تصبح العينات في المجموعة الفرعية أكثر صعوبة وأكثر كثرة في عائدات التكرار.والآخر هو أن نستخدم تمييزا لتصفية الملصقات الزائفة الصاخبة.تظهر النتائج التجريبية على أربعة مجموعات من مجموعات بيانات Sereval أن طرازنا تتفوق بشكل كبير على الأساس السابقة وتحقق أداء حالة من الفن.
Aspect term extraction aims to extract aspect terms from a review sentence that users have expressed opinions on. One of the remaining challenges for aspect term extraction resides in the lack of sufficient annotated data. While self-training is potentially an effective method to address this issue, the pseudo-labels it yields on unlabeled data could induce noise. In this paper, we use two means to alleviate the noise in the pseudo-labels. One is that inspired by the curriculum learning, we refine the conventional self-training to progressive self-training. Specifically, the base model infers pseudo-labels on a progressive subset at each iteration, where samples in the subset become harder and more numerous as the iteration proceeds. The other is that we use a discriminator to filter the noisy pseudo-labels. Experimental results on four SemEval datasets show that our model significantly outperforms the previous baselines and achieves state-of-the-art performance.
المراجع المستخدمة
https://aclanthology.org/
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس
يهدف تصنيف المعنويات على مستوى الجانب (ALSC) إلى تحديد قطبية المعنويات من جانب محدد في جملة. ESSC عبارة عن إعداد عملي في تحليل المعنويات المستندة إلى جانب الجسيم بسبب عدم وجود مصطلح الرأي اللازم، لكنه فشل في تفسير سبب اشتقاق قطبية المعنويات للجانب. ل
على الرغم من نجاحاتها الأخيرة في معالجة العديد من مهام NLP، لا تؤدي نماذج اللغة المدربة مسبقا على نطاق واسع وكذلك في إعدادات قليلة، حيث تتوفر حفنة من الأمثلة التدريبية فقط. لمعالجة هذا القصور، نقترح الطبقات، والتي تعني التدريب الذاتي مع تكبير المهمة،
تحظى طرازات اللغة واسعة النطاق (LMS) في كورسورا هائلة من النص، مثل GPT-2، هي مولدات نصية مفتوحة قوية. ومع ذلك، نظرا لأن الفحص المنهجي الخاص بنا يكشف، فمن لا يزال يمثل تحديا لهذه النماذج لتوليد ممرات طويلة طويلة متماسكة من النص (على سبيل المثال، 1000