ثبت أن دمج المعرفة المعجمية في نماذج التعلم العميق قد تكون فعالة للغاية لمهام وضع التسلسل.ومع ذلك، فإن الأمر السابق يعمل عادة صعوبة في التعامل مع المعجم الديناميكي النطاق الذي يسبب غالبا ضوضاء مطابقة مفرطة ومشاكل التحديثات المتكررة.في هذه الورقة، نقترح Dylex، ونهج تأريك معجم التوصيل لمهام تسلسل التسلسل القائمة على بيرت.بدلا من الاستفادة من تضمين الكلمات في المعجم في الأساليب التقليدية، فإننا نعتمد تضمين العلامات اللاإرادي للكلمة لتجنب إعادة تدريب التمثيل أثناء تحديث المعجم.علاوة على ذلك، فإننا نوظف طريقة تنظيف المعرفة المعلنة المعجمية الفعالة لإعلام الضوضاء المطابقة.وأخيرا، نقدم آلية الانتباه المعرفة القائم على العقيد الحكيمة لضمان استقرار الإطار المقترح.تجارب تجارب عشرة مجموعات من ثلاث مهام تشير إلى أن الإطار المقترح يحقق سوتا جديدة، حتى مع المعجم على نطاق واسع جدا.
Incorporating lexical knowledge into deep learning models has been proved to be very effective for sequence labeling tasks. However, previous works commonly have difficulty dealing with large-scale dynamic lexicons which often cause excessive matching noise and problems of frequent updates. In this paper, we propose DyLex, a plug-in lexicon incorporation approach for BERT based sequence labeling tasks. Instead of leveraging embeddings of words in the lexicon as in conventional methods, we adopt word-agnostic tag embeddings to avoid re-training the representation while updating the lexicon. Moreover, we employ an effective supervised lexical knowledge denoising method to smooth out matching noise. Finally, we introduce a col-wise attention based knowledge fusion mechanism to guarantee the pluggability of the proposed framework. Experiments on ten datasets of three tasks show that the proposed framework achieves new SOTA, even with very large scale lexicons.
References used
https://aclanthology.org/
Existing pre-trained language models (PLMs) are often computationally expensive in inference, making them impractical in various resource-limited real-world applications. To address this issue, we propose a dynamic token reduction approach to acceler
In recent years pre-trained language models (PLM) such as BERT have proven to be very effective in diverse NLP tasks such as Information Extraction, Sentiment Analysis and Question Answering. Trained with massive general-domain text, these pre-traine
The task of converting a nonstandard text to a standard and readable text is known as lexical normalization. Almost all the Natural Language Processing (NLP) applications require the text data in normalized form to build quality task-specific models.
Different linearizations have been proposed to cast dependency parsing as sequence labeling and solve the task as: (i) a head selection problem, (ii) finding a representation of the token arcs as bracket strings, or (iii) associating partial transiti
In this paper, we propose a knowledge infusion mechanism to incorporate domain knowledge into language transformers. Weakly supervised data is regarded as the main source for knowledge acquisition. We pre-train the language models to capture masked k