غالبا ما يتم انتقاد حلول التعلم الآلية لعدم وجود شرح لنجاحاتها وفشلها. فهم المثيلات التي يتم إساءة استخدامها ولماذا ضرورية لتحسين عملية التعلم. يساعد هذا العمل في ملء هذه الفجوة من خلال اقتراح منهجية تميز، حدد وقياس تأثير مثيلات صعبة في مهمة تصنيف القطبية لمراجعات الأفلام. نحن نميز هذه الحالات إلى فئتين: الحياد، حيث لا ينقل النص قطبية واضحة، والتناقض، حيث يكون قطبية النص هو عكس تصنيفها الحقيقي. نحدد عدد الحالات الصعبة في تصنيف القطبية لمراجعات الأفلام وتوفير الأدلة التجريبية حول الحاجة إلى الانتباه إلى مثل هذه الحالات الإشكالية، لأنها أصعب بكثير تصنيفها، لكلا الجهازين والصفوف البشري. إلى حد ما من معرفتنا، هذا هو أول تحليل منهجي لتأثير المثيلات الصلبة في الكشف عن القطبية من الاستعراضات النصية المكونة بشكل جيد.
Machine learning solutions are often criticized for the lack of explanation of their successes and failures. Understanding which instances are misclassified and why is essential to improve the learning process. This work helps to fill this gap by proposing a methodology to characterize, quantify and measure the impact of hard instances in the task of polarity classification of movie reviews. We characterize such instances into two categories: neutrality, where the text does not convey a clear polarity, and discrepancy, where the polarity of the text is the opposite of its true rating. We quantify the number of hard instances in polarity classification of movie reviews and provide empirical evidence about the need to pay attention to such problematic instances, as they are much harder to classify, for both machine and human classifiers. To the best of our knowledge, this is the first systematic analysis of the impact of hard instances in polarity detection from well-formed textual reviews.
المراجع المستخدمة
https://aclanthology.org/
إن استخراج العلاقات على مستوى المستند هو مهمة صعبة، تتطلب التفكير في جمل متعددة للتنبؤ بمجموعة من العلاقات في وثيقة.في هذه الورقة، نقترح إطار رواية E2GRE (الكيان والأدلة استخراج التعادل الموجود) التي تستخرج العلاقات بشكل مشترك وعمليات الأدلة الأساسية
أثبتت الترجمة الآلية النموذجية على مستوى المستند (NMT) أنها ذات قيمة عميقة لفعاليتها في التقاط المعلومات السياقية. ومع ذلك، فإن الأساليب الحالية 1) تعرض ببساطة تمثيل أحكام السياق دون تمييز عملية التفكير بين الجملة؛ و 2) تغذية السياقات المستهدفة في ال
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ
استخراج العلاقات على مستوى المستند يهدف إلى تحديد العلاقات بين الكيانات في وثيقة كاملة. اعتمدت الجهود السابقة لالتقاط التبعيات البعيدة المدى اعتمادا كبيرا على تمثيلات قوية ضمنيا تعلمت من خلال (الرسم البياني) الشبكات العصبية، مما يجعل النموذج أقل شفاف
لقد تم استخراج العلاقات عبر مجموعة نصية كبيرة غير مستمدة نسبيا في NLP، لكنه مهم للغاية بالنسبة لمجالات عالية القيمة مثل الطب الحيوي، حيث يكون الحصول على استدعاء عالية من أحدث النتائج أمر حاسم للتطبيقات العملية. بالمقارنة مع استخراج المعلومات التقليدي