تهدف وضع العلامات للتسلسل إلى التنبؤ بتسلسل غرامة من الملصقات للنص. ومع ذلك، تعوق هذه الصياغة فعالية الأساليب الخاضعة للإشراف بسبب عدم وجود بيانات مشروحة على مستوى الرمز المميز. يتم تفاقم هذا عندما نلتقي مجموعة متنوعة من اللغات. في هذا العمل، نستكشف تسلسل تسلسل متعدد اللغات مع الحد الأدنى من الإشراف باستخدام نموذج موحد واحد لغات متعددة. على وجه التحديد، نقترح شبكة طالب مدرس من المعلمين (MITA)، وهي طريقة لتعلم التعريف الجديدة لتخفيف ندرة البيانات من خلال الاستفادة من البيانات الكبيرة متعددة اللغات غير المسبقة. يعتمد أطر من المعلمين السابقة من المعلمين من التدريب الذاتي على استراتيجيات تدريس جامدة، والتي بالكاد تنتج ملصقات زائفة عالية الجودة للرموز المتتالية والمترابطة. على العكس من ذلك، يسمح Metats بالمعلم بتكييف استراتيجيات الشروح الزائفة في ديناميكيا من خلال تعليقات الطالب على البيانات التي تم إنشاؤها المصممة ذات المسمى الزائفة من كل لغة، وبالتالي تخفيف انتشار الأخطاء من التسميات الزائفة الصاخبة. تجارب واسعة النطاق على كل من مجموعات بيانات تسلسل متعددة اللغات متعددة اللغات متعددة اللغات في العالم، توضح تجريبيا فعالية التيتات.
Sequence labeling aims to predict a fine-grained sequence of labels for the text. However, such formulation hinders the effectiveness of supervised methods due to the lack of token-level annotated data. This is exacerbated when we meet a diverse range of languages. In this work, we explore multilingual sequence labeling with minimal supervision using a single unified model for multiple languages. Specifically, we propose a Meta Teacher-Student (MetaTS) Network, a novel meta learning method to alleviate data scarcity by leveraging large multilingual unlabeled data. Prior teacher-student frameworks of self-training rely on rigid teaching strategies, which may hardly produce high-quality pseudo-labels for consecutive and interdependent tokens. On the contrary, MetaTS allows the teacher to dynamically adapt its pseudo-annotation strategies by the student's feedback on the generated pseudo-labeled data of each language and thus mitigate error propagation from noisy pseudo-labels. Extensive experiments on both public and real-world multilingual sequence labeling datasets empirically demonstrate the effectiveness of MetaTS.
المراجع المستخدمة
https://aclanthology.org/
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا
استخراج الرأي المستهدف واستخراج الأجل رأي هما مهمتان أساسيتان في تحليل المعرفات القائم على الجانب (ABASA). تركز العديد من الأعمال الأخيرة على ABSA على استخراج كلمات الرأي الموجهة نحو الهدف (TOWE) (Towe)، والتي تهدف إلى استخراج كلمات الرأي المقابلة لل
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال
على الرغم من أن التطورات الأخيرة في الهندسة العصبية والتمثيلات المدربة مسبقا قد زادت بشكل كبير من الأداء النموذجي للحدث على وضع العلامات الدلالية الخاضعة للإشراف بالكامل (SRL)، فإن المهمة تظل تحديا لغات حيث تكون بيانات تدريب SRL الإشرافية غير وفيرة.ي
نحن نبحث كيف يمكن تعديل محولات مستوى الجملة في وضع علامات تسلسل فعالة على مستوى الرمز المميز دون أي إشراف مباشر.لا تؤدي الأساليب الموجودة إلى وضع العلامات على التسلسل الصفرية جيدا عند تطبيقها على الهندسة القائمة على المحولات.نظرا لأن المحولات تحتوي ع