ترغب بنشر مسار تعليمي؟ اضغط هنا

\ 'ufal في multilexnorm 2021: تحسين التطبيع المعجمي متعدد اللغات بواسطة BYT5

\'UFAL at MultiLexNorm 2021: Improving Multilingual Lexical Normalization by Fine-tuning ByT5

287   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت مدروس مسبقا، BYT5 (Xue et al.، 2021A)، والتي ندرجها مسبقا على البيانات الاصطناعية ثم تناغم بشكل جيد على بيانات التطبيع الأصيل.يحقق نظامنا أفضل أداء بهامش واسع في التقييم الجوهري، وأيضا أفضل أداء في التقييم الخارجي من خلال تحليل التبعية.يتم إصدار شفرة المصدر في https://github.com/ufal/multilexnorm2021 والنماذج الدقيقة في https://huggingface.co/ufal.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل غات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
من الصعب معالجة وسائل التواصل الاجتماعي لأدوات معالجة اللغة الطبيعية القائمة، بسبب الأخطاء الإملائية، والكلمات غير القياسية، والتقصاصات، والرسملة غير القياسية وعلامات الترقيم.إحدى الطرق للتحايل على هذه المشكلات هي تطبيع بيانات الإدخال قبل المعالجة.رك زت معظم الأعمال السابقة بلغة واحدة فقط، والتي هي في الغالب الإنجليزية.في هذه الورقة، نحن أول من يقترح نموذجا للتطبيع المتبادل، الذي نشارك فيه في مهمة WNUT 2021 المشتركة.تحقيقا لهذه الغاية، نستخدم Monoise كنقطة انطلاق، وإجراء تكييف بسيط للتطبيق عبر اللغات.ينفأ النموذج الخاص بنا المقترح على خط الأساس في الإجازة التي يوفرها المنظمون الذين نسخ المدخلات.علاوة على ذلك، نستكشف نموذجا مختلفا تماما يحول المهمة إلى مهمة وضع علامة تسلسل.أداء هذا النظام الثاني منخفض، لأنه لا يأخذ القيمة في الاعتبار في تنفيذنا.
تصف هذه الورقة التقديمات HEL-LJU إلى المهمة المشتركة متعددة الأبعاد على التطبيع المعجمي متعدد اللغات.يعتمد نظامنا على خطوة مسبقة تصنيف صفقة Bert Token، حيث يتم توقع كل رمزي نوع التحول الضروري (لا شيء، أحرف كبيرة، صغيرة، كاستفغل، تعديل)، وخطوة SMT على مستوى الأحرف حيث يتم ترجمة النص من الأصلللتطبيع بالنظر إلى قيود التحول المتوقع بيرت.بالنسبة لبعض اللغات، اعتمادا على نتائج بيانات التنمية، تم تمديد بيانات التدريب من قبل بيانات OpenSubtitles مرة أخرى.في الترتيب النهائي للفرق العشرة المشاركة، اتخذ فريق هيل-LJU المركز الثاني، حيث سجل أفضل من الحالة السابقة من بين الفن.
إن تقييم تعقيد كلمة مستهدفة في سياق حكومي هو الهدف من مهمة تنبؤ التعقيد المعجمية في Semeval-2021.تقدم هذه الورقة النظام الذي تم إنشاؤه لتقييم تعقيد كلمات واحدة معجمية، والجمع بين المتغيرات اللغوية والنفسية في مجموعة من التجارب التي تنطوي على غابة عشو ائية و XGBOOST Regrations.ما وراء ترميز معلومات خارج السياق حول LEMMA، نفذنا ميزات بناء على نماذج اللغة المدربة مسبقا لنموذج تعقيد الكلمة المستهدف في السياق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا