ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج وضع التسلسل متعدد اللغات لحل التطبيع المعجمي

Multilingual Sequence Labeling Approach to solve Lexical Normalization

700   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء العديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل غات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.
نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت م دروس مسبقا، BYT5 (Xue et al.، 2021A)، والتي ندرجها مسبقا على البيانات الاصطناعية ثم تناغم بشكل جيد على بيانات التطبيع الأصيل.يحقق نظامنا أفضل أداء بهامش واسع في التقييم الجوهري، وأيضا أفضل أداء في التقييم الخارجي من خلال تحليل التبعية.يتم إصدار شفرة المصدر في https://github.com/ufal/multilexnorm2021 والنماذج الدقيقة في https://huggingface.co/ufal.
من الصعب معالجة وسائل التواصل الاجتماعي لأدوات معالجة اللغة الطبيعية القائمة، بسبب الأخطاء الإملائية، والكلمات غير القياسية، والتقصاصات، والرسملة غير القياسية وعلامات الترقيم.إحدى الطرق للتحايل على هذه المشكلات هي تطبيع بيانات الإدخال قبل المعالجة.رك زت معظم الأعمال السابقة بلغة واحدة فقط، والتي هي في الغالب الإنجليزية.في هذه الورقة، نحن أول من يقترح نموذجا للتطبيع المتبادل، الذي نشارك فيه في مهمة WNUT 2021 المشتركة.تحقيقا لهذه الغاية، نستخدم Monoise كنقطة انطلاق، وإجراء تكييف بسيط للتطبيق عبر اللغات.ينفأ النموذج الخاص بنا المقترح على خط الأساس في الإجازة التي يوفرها المنظمون الذين نسخ المدخلات.علاوة على ذلك، نستكشف نموذجا مختلفا تماما يحول المهمة إلى مهمة وضع علامة تسلسل.أداء هذا النظام الثاني منخفض، لأنه لا يأخذ القيمة في الاعتبار في تنفيذنا.
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا حدة لحل هذه المشكلة هي من خلال التطبيع المعجمي، وهي عملية تحويل النص غير القياسي، وعادة ما تكون من وسائل التواصل الاجتماعي، إلى نموذج أكثر موحدة. في هذا العمل، نقترح نموذج تسلسل تسلسل على مستوى الجملة بناء على MBART، مما يؤدي إلى إطارات المشكلة بمثابة مشكلة ترجمة آلية. نظرا لأن النص الصاخب يمثل مشكلة منتشرة عبر اللغات، وليس الإنجليزية فقط، فإننا نستفيد من التدريب المسبق متعدد اللغات ل MBART لضبطه إلى بياناتنا. في حين أن الأساليب الحالية تعمل بشكل رئيسي على مستوى الكلمة أو الكلمات الفرعية، فإننا نجادل بأن هذا النهج واضح واضح من وجهة نظر تقنية ويبني على شبكات المحولات الموجودة مسبقا. تظهر نتائجنا أنه في حين أن مستوى الكلمة، جوهري، فإن تقييم الأداء هو وراء الطرق الأخرى، فإن نموذجنا يحسن الأداء على مهام خارجية ومصمبة من خلال التطبيع مقارنة بالنماذج التي تعمل على نص وسائل التواصل الاجتماعي الخام وغير المجهزة.
تصف هذه الورقة التقديمات HEL-LJU إلى المهمة المشتركة متعددة الأبعاد على التطبيع المعجمي متعدد اللغات.يعتمد نظامنا على خطوة مسبقة تصنيف صفقة Bert Token، حيث يتم توقع كل رمزي نوع التحول الضروري (لا شيء، أحرف كبيرة، صغيرة، كاستفغل، تعديل)، وخطوة SMT على مستوى الأحرف حيث يتم ترجمة النص من الأصلللتطبيع بالنظر إلى قيود التحول المتوقع بيرت.بالنسبة لبعض اللغات، اعتمادا على نتائج بيانات التنمية، تم تمديد بيانات التدريب من قبل بيانات OpenSubtitles مرة أخرى.في الترتيب النهائي للفرق العشرة المشاركة، اتخذ فريق هيل-LJU المركز الثاني، حيث سجل أفضل من الحالة السابقة من بين الفن.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا