ترغب بنشر مسار تعليمي؟ اضغط هنا

multilexnorm: مهمة مشتركة على التطبيع المعجمي متعدد اللغات

MultiLexNorm: A Shared Task on Multilingual Lexical Normalization

246   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك اللغات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت م دروس مسبقا، BYT5 (Xue et al.، 2021A)، والتي ندرجها مسبقا على البيانات الاصطناعية ثم تناغم بشكل جيد على بيانات التطبيع الأصيل.يحقق نظامنا أفضل أداء بهامش واسع في التقييم الجوهري، وأيضا أفضل أداء في التقييم الخارجي من خلال تحليل التبعية.يتم إصدار شفرة المصدر في https://github.com/ufal/multilexnorm2021 والنماذج الدقيقة في https://huggingface.co/ufal.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
من الصعب معالجة وسائل التواصل الاجتماعي لأدوات معالجة اللغة الطبيعية القائمة، بسبب الأخطاء الإملائية، والكلمات غير القياسية، والتقصاصات، والرسملة غير القياسية وعلامات الترقيم.إحدى الطرق للتحايل على هذه المشكلات هي تطبيع بيانات الإدخال قبل المعالجة.رك زت معظم الأعمال السابقة بلغة واحدة فقط، والتي هي في الغالب الإنجليزية.في هذه الورقة، نحن أول من يقترح نموذجا للتطبيع المتبادل، الذي نشارك فيه في مهمة WNUT 2021 المشتركة.تحقيقا لهذه الغاية، نستخدم Monoise كنقطة انطلاق، وإجراء تكييف بسيط للتطبيق عبر اللغات.ينفأ النموذج الخاص بنا المقترح على خط الأساس في الإجازة التي يوفرها المنظمون الذين نسخ المدخلات.علاوة على ذلك، نستكشف نموذجا مختلفا تماما يحول المهمة إلى مهمة وضع علامة تسلسل.أداء هذا النظام الثاني منخفض، لأنه لا يأخذ القيمة في الاعتبار في تنفيذنا.
تصف هذه الورقة التقديمات HEL-LJU إلى المهمة المشتركة متعددة الأبعاد على التطبيع المعجمي متعدد اللغات.يعتمد نظامنا على خطوة مسبقة تصنيف صفقة Bert Token، حيث يتم توقع كل رمزي نوع التحول الضروري (لا شيء، أحرف كبيرة، صغيرة، كاستفغل، تعديل)، وخطوة SMT على مستوى الأحرف حيث يتم ترجمة النص من الأصلللتطبيع بالنظر إلى قيود التحول المتوقع بيرت.بالنسبة لبعض اللغات، اعتمادا على نتائج بيانات التنمية، تم تمديد بيانات التدريب من قبل بيانات OpenSubtitles مرة أخرى.في الترتيب النهائي للفرق العشرة المشاركة، اتخذ فريق هيل-LJU المركز الثاني، حيث سجل أفضل من الحالة السابقة من بين الفن.
تصف هذه الورقة التقديم من قبل الفريق من قسم اللغويات الحاسوبية، جامعة زيوريخ، إلى مهمة تحويل Grapheme-To-PhoneMe متعددة اللغات 1 من تحدي Sigmorphon 2021 في الإعدادات المنخفضة والمتوسطة. التقديم هو اختلاف في نظامنا 2020 G2P، الذي يعمل كأساس لتحدي هذا العام. النظام عبارة عن محول عصبي يعمل على إجراءات تحرير صريحة ويتم تدريبه على التعلم التقليد. لهذا التحدي، جربنا التغييرات التالية: أ) شرائح صوتية تنبعث منها بدلا من صوتيات الشخصيات الفردية، ب) تسرب حرف الإدخال، ج) فك تشفير Mogrovifier LSTM (Melis et al.، 2019)، D) إثراء مدخلات وحدة فك الترميز حضر حاليا حرف الإدخال، ه) تشفير Bilstm الموازية، و) جدولة حجم الدفعة التكيفية. في الإعداد المنخفض، تحسن أفضل فرمنا على الأساس، ومع ذلك، في الإعداد المتوسطة، كان الأساس أقوى في المتوسط، على الرغم من أن تحسينات بعض اللغات يمكن ملاحظتها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا