تصف هذه الورقة التقديمات HEL-LJU إلى المهمة المشتركة متعددة الأبعاد على التطبيع المعجمي متعدد اللغات.يعتمد نظامنا على خطوة مسبقة تصنيف صفقة Bert Token، حيث يتم توقع كل رمزي نوع التحول الضروري (لا شيء، أحرف كبيرة، صغيرة، كاستفغل، تعديل)، وخطوة SMT على مستوى الأحرف حيث يتم ترجمة النص من الأصلللتطبيع بالنظر إلى قيود التحول المتوقع بيرت.بالنسبة لبعض اللغات، اعتمادا على نتائج بيانات التنمية، تم تمديد بيانات التدريب من قبل بيانات OpenSubtitles مرة أخرى.في الترتيب النهائي للفرق العشرة المشاركة، اتخذ فريق هيل-LJU المركز الثاني، حيث سجل أفضل من الحالة السابقة من بين الفن.
This paper describes the HEL-LJU submissions to the MultiLexNorm shared task on multilingual lexical normalization. Our system is based on a BERT token classification preprocessing step, where for each token the type of the necessary transformation is predicted (none, uppercase, lowercase, capitalize, modify), and a character-level SMT step where the text is translated from original to normalized given the BERT-predicted transformation constraints. For some languages, depending on the results on development data, the training data was extended by back-translating OpenSubtitles data. In the final ordering of the ten participating teams, the HEL-LJU team has taken the second place, scoring better than the previous state-of-the-art.
المراجع المستخدمة
https://aclanthology.org/
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال
التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل
نقدم الدخول الفائز إلى مهمة مشتركة من التطبيع المعجمي متعدد اللغات (Multilexnorm) في W-Nut 2021 (Van Der Goot et al.، 2021A)، والتي تقيم أنظمة التطبيع المعجمي في 12 مجموعة بيانات وسائل التواصل الاجتماعي في 11 لغة.نقوم بتأسيس حلنا على نموذج لغة بايت م
تحتوي المهام القياسية الحالية لمعالجة اللغة الطبيعية على نص مختلف عن النص المستخدم في اليومي غير الرسمي إلى الاتصال الرقمي اليومي. أدى هذا التناقض إلى تدهور الأداء الشديد لنماذج NLP الحديثة عندما يتم ضبطها بشكل جيد على بيانات العالم الحقيقي. طريقة وا
اعتمدت الأبحاث الحديثة حقل تجريبي جديد يترکن حول مفهوم اضطرابات النصوص التي كشفت عن ترتيب الكلمات الخلفي ليس لها تأثير كبير على أداء نماذج اللغة القائمة على المحولات في العديد من مهام NLP. تتناقض هذه النتائج بالفهم المشترك لكيفية تشفير النماذج من الم