أداء النماذج العصبية للتعرف على الكيان المسمى يتحلل مع مرور الوقت، أصبحت قديمة.هذا التدهور يرجع إلى الانجراف الزمني، والتغيير في الخصائص الإحصائية المتغيرات المستهدفة لدينا مع مرور الوقت.هذه المسألة مشكلة خاصة لبيانات وسائل التواصل الاجتماعي، حيث تتغير المواضيع بسرعة.من أجل التخفيف من المشكلة، فإن شرح البيانات وإعادة تدريب النماذج أمر شائع.على الرغم من فائدتها، فإن هذه العملية مكلفة وتستغرق وقتا طويلا، مما يحفز بحثا جديدا على التحديث النموذجي الفعال.في هذه الورقة، نقترح نهجا بديهيا لقياس الوعي المحتمل للتغريدات واستخدام هذا المقياس لتحديد أكثر الحالات إعلامية للاستخدام للتدريب.نقوم بإجراء تجارب على ثلاث نماذج من أحدث طراز على مجموعة بيانات Twitter الزمنية.يظهر نهجنا زيادة أكبر في دقة التنبؤ مع بيانات تدريب أقل من البدائل، مما يجعلها حل جذابة وعملية.
Performance of neural models for named entity recognition degrades over time, becoming stale. This degradation is due to temporal drift, the change in our target variables' statistical properties over time. This issue is especially problematic for social media data, where topics change rapidly. In order to mitigate the problem, data annotation and retraining of models is common. Despite its usefulness, this process is expensive and time-consuming, which motivates new research on efficient model updating. In this paper, we propose an intuitive approach to measure the potential trendiness of tweets and use this metric to select the most informative instances to use for training. We conduct experiments on three state-of-the-art models on the Temporal Twitter Dataset. Our approach shows larger increases in prediction accuracy with less training data than the alternatives, making it an attractive, practical solution.
المراجع المستخدمة
https://aclanthology.org/
توليد الحوار المكيف يعاني من ندرة الردود المسمى.في هذا العمل، استغلالنا بيانات نصية غير حوار مرتبطة بالشرط، والتي هي أسهل بكثير لجمعها.نقترح نهج تعليمي متعدد المهام للاستفادة من كل من الحوار والبيانات النصية المسمى.تقوم المهام الثلاثة بتحسين نفس مهمة
تلعب الحساب دورا رئيسيا في فهم اللغة الطبيعية.ومع ذلك، فإن نهج NLP الحالية، وليس فقط نهج Word2VEC التقليدي أو نماذج اللغة المستندة إلى المحولات السياقية، تفشل في تعلم الحساب.ونتيجة لذلك، فإن أداء هذه النماذج محدود عند تطبيقه على التطبيقات المكثفة في
هناك مصلحة ناشئة في تطبيق نماذج معالجة اللغة الطبيعية لمهام معالجة التعليمات البرمجية المصدر.أحد المشاكل الرئيسية في تطبيق التعلم العميق لهندسة البرمجيات هو أن الكود المصدري غالبا ما يحتوي على الكثير من المعرفات النادرة، مما يؤدي إلى مفردات ضخمة.نقتر
في حين أن طرازات اللغة المدربة مسبقا (PTLMS) حققت نجاحا ملحوظا في العديد من مهام NLP، إلا أنها ما زالوا يكافحون من أجل المهام التي تتطلب منطق الحدث الزمني، وهو أمر ضروري للتطبيقات المرن في الحدث. نقدم نهجا مستمرا مسبقا يزود PTLMS مع المعرفة المستهدفة
عندما يتواصل الوكلاء الذكيون بإنجاز الأهداف المشتركة، كيف تشكل هذه الأهداف لغة الوكلاء؟ندرس ديناميات التعلم في سياسات اللغة الكامنة (LTPs)، حيث يولد وكلاء المعلمون الأوصاف الفرعية باللغة الطبيعية ووكلاء المنفذين تعيين هذه الأوصاف إلى إجراءات منخفضة ا