تهدف وضع العلامات للتسلسل إلى التنبؤ بتسلسل غرامة من الملصقات للنص. ومع ذلك، تعوق هذه الصياغة فعالية الأساليب الخاضعة للإشراف بسبب عدم وجود بيانات مشروحة على مستوى الرمز المميز. يتم تفاقم هذا عندما نلتقي مجموعة متنوعة من اللغات. في هذا العمل، نستكشف تسلسل تسلسل متعدد اللغات مع الحد الأدنى من الإشراف باستخدام نموذج موحد واحد لغات متعددة. على وجه التحديد، نقترح شبكة طالب مدرس من المعلمين (MITA)، وهي طريقة لتعلم التعريف الجديدة لتخفيف ندرة البيانات من خلال الاستفادة من البيانات الكبيرة متعددة اللغات غير المسبقة. يعتمد أطر من المعلمين السابقة من المعلمين من التدريب الذاتي على استراتيجيات تدريس جامدة، والتي بالكاد تنتج ملصقات زائفة عالية الجودة للرموز المتتالية والمترابطة. على العكس من ذلك، يسمح Metats بالمعلم بتكييف استراتيجيات الشروح الزائفة في ديناميكيا من خلال تعليقات الطالب على البيانات التي تم إنشاؤها المصممة ذات المسمى الزائفة من كل لغة، وبالتالي تخفيف انتشار الأخطاء من التسميات الزائفة الصاخبة. تجارب واسعة النطاق على كل من مجموعات بيانات تسلسل متعددة اللغات متعددة اللغات متعددة اللغات في العالم، توضح تجريبيا فعالية التيتات.
Sequence labeling aims to predict a fine-grained sequence of labels for the text. However, such formulation hinders the effectiveness of supervised methods due to the lack of token-level annotated data. This is exacerbated when we meet a diverse range of languages. In this work, we explore multilingual sequence labeling with minimal supervision using a single unified model for multiple languages. Specifically, we propose a Meta Teacher-Student (MetaTS) Network, a novel meta learning method to alleviate data scarcity by leveraging large multilingual unlabeled data. Prior teacher-student frameworks of self-training rely on rigid teaching strategies, which may hardly produce high-quality pseudo-labels for consecutive and interdependent tokens. On the contrary, MetaTS allows the teacher to dynamically adapt its pseudo-annotation strategies by the student's feedback on the generated pseudo-labeled data of each language and thus mitigate error propagation from noisy pseudo-labels. Extensive experiments on both public and real-world multilingual sequence labeling datasets empirically demonstrate the effectiveness of MetaTS.
References used
https://aclanthology.org/
Current benchmark tasks for natural language processing contain text that is qualitatively different from the text used in informal day to day digital communication. This discrepancy has led to severe performance degradation of state-of-the-art NLP m
Opinion target extraction and opinion term extraction are two fundamental tasks in Aspect Based Sentiment Analysis (ABSA). Many recent works on ABSA focus on Target-oriented Opinion Words (or Terms) Extraction (TOWE), which aims at extracting the cor
The task of converting a nonstandard text to a standard and readable text is known as lexical normalization. Almost all the Natural Language Processing (NLP) applications require the text data in normalized form to build quality task-specific models.
Although recent developments in neural architectures and pre-trained representations have greatly increased state-of-the-art model performance on fully-supervised semantic role labeling (SRL), the task remains challenging for languages where supervis
We investigate how sentence-level transformers can be modified into effective sequence labelers at the token level without any direct supervision. Existing approaches to zero-shot sequence labeling do not perform well when applied on transformer-base