في هذه الدراسة، اقترحنا طريقة وضع العلامات الزائفة القائمة على معجم الرواية باستخدام نهج AI (XAI) القائم. النهج الحالي لديه قيود أساسية في متواضتهم لأن المصنف الفقراء يؤدي إلى وضع علامة ناعمة غير دقيقة، ويؤدي إلى تصنيف الفقراء بشكل متكرر. وفي الوقت نفسه، نولد المعجم يتكون من كلمة المعنويات بناء على نقاط الشرح. ثم نحسب ثقة البيانات غير المسبقة مع المعجم وإضافتها إلى مجموعة بيانات المسمى لنهج وضع العلامات الزائفة القوية. لدينا طريقة المقترحة لها ثلاثة مساهمات. أولا، يولد المنهجية المقترحة تلقائيا معجما يعتمد على Xai ويقوم بإجراء وضع علامات زائفة مستقلة، وبالتالي ضمان الأداء الأعلى والأقلية مقارنة بالآخر. ثانيا، نظرا لأن وضع العلامات الزائفة القائمة على المعجم يتم تنفيذها دون التعلم في معظم النماذج، فإن كفاءة الوقت قد زادت إلى حد كبير، وثالثا، يمكن أن تكون المعجم المنتج عالية الجودة المتوفرة لتحليل المعنويات للبيانات من مجالات مماثلة. تم التحقق من فعالية وكفاءة أسلوبنا المقترح من خلال المقارنة الكمية مع طريقة وضع العلامات الزائفة الحالية والمراجعة النوعية للمعجم الذي تم إنشاؤه.
In this study, we proposed a novel Lexicon-based pseudo-labeling method utilizing explainable AI(XAI) approach. Existing approach have a fundamental limitation in their robustness because poor classifier leads to inaccurate soft-labeling, and it lead to poor classifier repetitively. Meanwhile, we generate the lexicon consists of sentiment word based on the explainability score. Then we calculate the confidence of unlabeled data with lexicon and add them into labeled dataset for the robust pseudo-labeling approach. Our proposed method has three contributions. First, the proposed methodology automatically generates a lexicon based on XAI and performs independent pseudo-labeling, thereby guaranteeing higher performance and robustness compared to the existing one. Second, since lexicon-based pseudo-labeling is performed without re-learning in most of models, time efficiency is considerably increased, and third, the generated high-quality lexicon can be available for sentiment analysis of data from similar domains. The effectiveness and efficiency of our proposed method were verified through quantitative comparison with the existing pseudo-labeling method and qualitative review of the generated lexicon.
المراجع المستخدمة
https://aclanthology.org/
تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واق
تحليل مورفولوجي (MA) والتطبيع المعجمي (LN) هي مهام مهمة للنص الياباني الذي تم إنشاؤه بواسطة المستخدمين (UGT).لتقييم ومقارنة أنظمة MA / LN المختلفة، قمنا ببناء كوربوس UGT اليابانية المتاحة للجمهور.يشتمل كوربوس لدينا على 929 جمل مشروحة مع معلومات مورفو
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع
في الآونة الأخيرة، يركز غالبية الباحثين تحليل المعنويات على تحليل المعنويات المستندة إلى الهدف لأنه يوفر تحليلا متعمقا بنتائج أكثر دقة بالمقارنة مع تحليل المعنويات التقليدية.في هذه الورقة، نقترح نهجا تعليميا تفاعليا لمعالجة مهمة تحليل المعنويات المست
عندما نهم مهتمين في مجال معين، يمكننا جمع وتحليل البيانات من الإنترنت.لا يتم تصميم البيانات التي تم جمعها حديثا، لذلك من المأمول استخدام البيانات المسمى مفيدة للبيانات الجديدة.نقوم بإجراء التعرف على كيان الاسم (NER) وتحليل المعرفات المستندة إلى جانب