ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال التكيف في مجال التدريجي - PDALN. أنه يحقق إمكانية التكيف المجال المتفوق من خلال توظيف ثلاثة مكونات: (1) تقنيات تكبير البيانات التكيفية، والتي تخفف فجوة عبر المجال وتسمية مضيفية في وقت واحد؛ (2) ميزات ثابتة نطاق المجال متعدد المستويات، مشتقة من نهج MMD متعدد الحبيبات (الحد الأقصى للتناقض المتوسط)، لتمكين نقل المعرفة عبر المجالات؛ (3) مخطط KD المتقدمة، والذي يتيح تدريجيا نماذج اللغة المدربة مسبقا مسبقا لأداء تكيف المجال. تشير تجارب واسعة على أربعة معايير إلى أن PDALN يمكن أن تتكيف بشكل فعال مجالات الموارد العالية إلى المجالات المستهدفة من الموارد المنخفضة، حتى لو كانت متنوعة من حيث الأنماط والكتابة. تشير المقارنة مع خطوط الأساس الأخرى إلى أداء الدولة الواحد لدليلن.
Cross-domain Named Entity Recognition (NER) transfers the NER knowledge from high-resource domains to the low-resource target domain. Due to limited labeled resources and domain shift, cross-domain NER is a challenging task. To address these challenges, we propose a progressive domain adaptation Knowledge Distillation (KD) approach -- PDALN. It achieves superior domain adaptability by employing three components: (1) Adaptive data augmentation techniques, which alleviate cross-domain gap and label sparsity simultaneously; (2) Multi-level Domain invariant features, derived from a multi-grained MMD (Maximum Mean Discrepancy) approach, to enable knowledge transfer across domains; (3) Advanced KD schema, which progressively enables powerful pre-trained language models to perform domain adaptation. Extensive experiments on four benchmarks show that PDALN can effectively adapt high-resource domains to low-resource target domains, even if they are diverse in terms and writing styles. Comparison with other baselines indicates the state-of-the-art performance of PDALN.
المراجع المستخدمة
https://aclanthology.org/
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و
نقدم Bertweetfr، أول نموذج لغوي مدرب مسبقا على نطاق واسع للتغريدات الفرنسية.يتم تهيئ نموذجنا باستخدام نموذج اللغة الفرنسية المجال للمجال Camembert الذي يتبع بنية Base Bert.تظهر التجارب أن Bertweetfr Outperforms جميع نماذج اللغة الفرنسية العامة في الم
يعرف تطبيق المتخصص في مجال التعرف على الكيان المسمى (ner) باسم الطيوميدي (Bioner)، الذي يهدف إلى تحديد وتصنيف المفاهيم الطبية الحيوية التي تهم الباحثين، مثل الجينات والبروتينات والمركبات الكيميائية والمخدرات والطفرات والأمراض ، وما إلى ذلك وهلم جرا.