ترغب بنشر مسار تعليمي؟ اضغط هنا

Phonlp: نموذج تعليمي مشترك متعدد المهام لعلامات الجزء الفيتنامي من الكلام، التعرف على الكيان المسمى وتحليل التبعية

PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing

350   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم أول نموذج تعليمي متعدد المهام - يدعى Phonlp - للحصول على وضع العلامات الفيتنامية الفيتنامية المشتركة (POS)، والتعرف على الكيان المسمى (NER) وتحليل التبعية. تشير التجارب في مجموعات البيانات الفيتنامية إلى المؤشرات الفيتنامية أن فونلتر تنتج نتائج حديثة، مما يتفوق على نهج تعلم المهمة الواحدة التي تلتصق بها نماذج اللغة الفيتنامية المدربة مسبقا Phobert (Nguyen and Nguyen، 2020) لكل مهمة بشكل مستقل. نحن نطلق علنا ​​phonlp كمجموعة أدوات مفتوحة المصدر تحت ترخيص Apache 2.0. على الرغم من أننا نحدد Phonlp للفيتنامية، إلا أن البرامج النصية لأمر عمل التدريب والتقييم لدينا في الواقع يمكن أن تعمل مباشرة من أجل لغات أخرى تحتوي على نموذج لغوي مدرب مسبقا مدربا مدربا ومقاذاة ذهبية مشروحة متاحة للمهام الثلاثة لوضع علامات POS و NER و TEMENTION وبعد نأمل أن تكون شركة Phonlp بمثابة مجموعة أساسية قوية ومفيدة لأبحاث وتطبيقات NLP المستقبلية ليس فقط الفيتنامية ولكن أيضا اللغات الأخرى. لدينا phonlp متاح في https://github.com/vinairesearch/phonlp



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل أن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
ينقل التعرف على الكيان المسمى عبر المجال (NER) المعرفة NER من مجالات الموارد العالية إلى المجال المستهدف منخفض الموارد. نظرا للموارد المحدودة المسمى وانعكاف المجال، تعد Nor Cross-Domain مهمة صعبة. لمعالجة هذه التحديات، نقترح نهج تقطير المعرفة في مجال التكيف في مجال التدريجي - PDALN. أنه يحقق إمكانية التكيف المجال المتفوق من خلال توظيف ثلاثة مكونات: (1) تقنيات تكبير البيانات التكيفية، والتي تخفف فجوة عبر المجال وتسمية مضيفية في وقت واحد؛ (2) ميزات ثابتة نطاق المجال متعدد المستويات، مشتقة من نهج MMD متعدد الحبيبات (الحد الأقصى للتناقض المتوسط)، لتمكين نقل المعرفة عبر المجالات؛ (3) مخطط KD المتقدمة، والذي يتيح تدريجيا نماذج اللغة المدربة مسبقا مسبقا لأداء تكيف المجال. تشير تجارب واسعة على أربعة معايير إلى أن PDALN يمكن أن تتكيف بشكل فعال مجالات الموارد العالية إلى المجالات المستهدفة من الموارد المنخفضة، حتى لو كانت متنوعة من حيث الأنماط والكتابة. تشير المقارنة مع خطوط الأساس الأخرى إلى أداء الدولة الواحد لدليلن.
يستخدم التعلم النشط (AL) خوارزمية اختيار البيانات لتحديد عينات تدريب مفيدة لتقليل تكلفة التوضيحية. هذه هي الآن أداة أساسية لبناء محلل تحويلات تحويلية منخفضة الموارد مثل Taggers جزء من الكلام (POS). يتم تصميم الاستدلال الموجودة بشكل عام بشكل عام على م بدأ اختيار مثيلات تدريبية غير مؤكدة ولكنها قد تقلل من هذه الحالات تقليل عدد كبير من الأخطاء. ومع ذلك، في دراسة تجريبية عبر ست لغات متنوعة من النطباض (الألمانية والسويدية والاجنية والشابات الشمالية والفارسية والأوكرانية)، وجدنا النتيجة المثيرة للدهشة أنه حتى في سيناريو أوراكل حيث نعرف عدم اليقين الحقيقي للتوقعات، هذه الاستدلال الحالية بعيدون عن الأمثل. بناء على هذا التحليل، نطرح مشكلة آل كما اختيار الحالات التي تقلل من الارتباك بين أزواج من علامات الإخراج معينة. تظهر تجربة واسعة النطاق على اللغات المذكورة أعلاه أن استراتيجيتنا المقترحة تتفوق على استراتيجيات آجال أخرى من هامش مهم. نقدم أيضا نتائج مساعدة توضح أهمية المعايرة المناسبة للنماذج، والتي نضمنها من خلال التدريب المبريد، وتحليلا إظهار كيفية تحديد استراتيجيتنا المقترحة أمثلة تتابع بشكل وثيق توزيع بيانات Oracle. يتم إصدار الرمز علني هنا

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا