ترغب بنشر مسار تعليمي؟ اضغط هنا

PDALN: تكييف المجال التدريجي على نموذج مدرب مسبقا للحصول على التعرف على الكيان المسمى المورد

PDALN: Progressive Domain Adaptation over a Pre-trained Model for Low-Resource Cross-Domain Named Entity Recognition

561   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال التكيف في مجال التدريجي - PDALN. أنه يحقق إمكانية التكيف المجال المتفوق من خلال توظيف ثلاثة مكونات: (1) تقنيات تكبير البيانات التكيفية، والتي تخفف فجوة عبر المجال وتسمية مضيفية في وقت واحد؛ (2) ميزات ثابتة نطاق المجال متعدد المستويات، مشتقة من نهج MMD متعدد الحبيبات (الحد الأقصى للتناقض المتوسط)، لتمكين نقل المعرفة عبر المجالات؛ (3) مخطط KD المتقدمة، والذي يتيح تدريجيا نماذج اللغة المدربة مسبقا مسبقا لأداء تكيف المجال. تشير تجارب واسعة على أربعة معايير إلى أن PDALN يمكن أن تتكيف بشكل فعال مجالات الموارد العالية إلى المجالات المستهدفة من الموارد المنخفضة، حتى لو كانت متنوعة من حيث الأنماط والكتابة. تشير المقارنة مع خطوط الأساس الأخرى إلى أداء الدولة الواحد لدليلن.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و الرد على الأسئلة والترجمة الآلية. في الترجمة الآلية، غالبا ما تسبب الكيانات المسماة فشل الترجمة بغض النظر عن السياق المحلي، مما يؤثر على جودة الإخراج للترجمة. التعليق الكيانات المسماة هي عملية تستغرق وقتا طويلا ومكلفة خاصة لغات الموارد المنخفضة. أحد الحلول لهذه المشكلة هو استخدام طرق محاذاة Word في شركة موازية ثنائية اللغة تم تفاحها جانب واحد فقط. الهدف هو استخراج الكيانات المسماة في اللغة المستهدفة باستخدام Corpus المشرف من لغة المصدر. في هذه الورقة، قارنا أداء اثنين من أساليب المحاذاة، واللبسائع التناظرية المتناثرة-Diag-Final-Final وتقاطع التناظر، لاستغلال الإسقاط التوضيحي للبرتغالية البرتغالية الإنجليزية البرازيلية للكشف عن الكيانات المسماة في البرتغالية البرازيلية. يتم استخدام نموذج NER الذي تم تدريبه على البيانات المشروحة المستخرجة من أساليب المحاذاة، لتقييم أداء المحاذاين. تظهر النتائج التجريبية أن التعايدة بين التقاطعات قادرة على تحقيق درجات أداء فائقة مقارنة مع النمو - النهائي والنهائي والمشي في البرتغالية البرازيلية.
نقدم Bertweetfr، أول نموذج لغوي مدرب مسبقا على نطاق واسع للتغريدات الفرنسية.يتم تهيئ نموذجنا باستخدام نموذج اللغة الفرنسية المجال للمجال Camembert الذي يتبع بنية Base Bert.تظهر التجارب أن Bertweetfr Outperforms جميع نماذج اللغة الفرنسية العامة في الم جال السابق على اثنين من مهام Twitter Twitter من Twitter من تحديد الاجثافية التعرف على الكيان المسمى.تم إنشاء DataSet المستخدمة في مهمة كشف الاجزاسية أولا وشروحة من قبل فريقنا، وملء فجوة هذه البيانات التحليلية في الفرنسية.نجعل نموذجنا متاحا علنا في مكتبة المحولات بهدف تعزيز البحث في المستقبل في المهام التحليلية للتغريدات الفرنسية.
يعرف تطبيق المتخصص في مجال التعرف على الكيان المسمى (ner) باسم الطيوميدي (Bioner)، الذي يهدف إلى تحديد وتصنيف المفاهيم الطبية الحيوية التي تهم الباحثين، مثل الجينات والبروتينات والمركبات الكيميائية والمخدرات والطفرات والأمراض ، وما إلى ذلك وهلم جرا. تشبه المهمة Bioner إلى حد كبير عام NER ولكن الاعتراف بالكيانات الطبية الحيوية المسماة (BNES) أكثر تحديا من الاعتراف بالأسماء المناسبة من الصحف بسبب خصائص التسميات الطبية الحيوية. من أجل معالجة التحديات التي تطرحها Bioner، تم تنفيذ سبع نماذج تعليمية في سبع آلات مقارنة نهج تعلم النقل بناء على برت ضبط صقل مع النماذج العصبية التي تعتمد عليها BI-LSTM وطراز CRF يستخدم كناسما أساسيا. تم استخدام الدقة والتذكر و F1-Score نظرا لأن درجات الأداء التي تقوم بتقييم النماذج على اثنين من الأطباق الطبية الحيوية المعروفة: Jnlpba و Biocreative IV (BC-IV). تعتبر مطابقة صارمة جزئية معايير تقييم. تشير النتائج المبلغ عنها إلى أن نهج التعلم عبر النقل يعتمد على بيرت المصنفات التي تم ضبطها تتفوق جميع أساليب الآخرين على تحقيق أعلى درجات لجميع المقاييس على كلا الشريعة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا