ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج تحرير النص إلى تجزئة الكلمات اليابانية المشتركة، وعلامات نقاط البيع والتطبيع المعجمي

A Text Editing Approach to Joint Japanese Word Segmentation, POS Tagging, and Lexical Normalization

625   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد التطبيع المعجمي، بالإضافة إلى تقسيم الكلمات وعلامات جزء من الكلام، مهمة أساسية لمعالجة النصية اليابانية التي أنشأها المستخدم.في هذه الورقة، نقترح نموذج تحرير النصوص لحل المهمة الثلاثة المشتركة وطرق توليد البيانات المسمى Pseudo للتغلب على مشكلة نقص البيانات.أظهرت تجاربنا أن النموذج المقترح حقق أداء تطبيع أفضل عند التدريب على بيانات أكثر تنوعا المصممة بالقطرات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.
تحليل مورفولوجي (MA) والتطبيع المعجمي (LN) هي مهام مهمة للنص الياباني الذي تم إنشاؤه بواسطة المستخدمين (UGT).لتقييم ومقارنة أنظمة MA / LN المختلفة، قمنا ببناء كوربوس UGT اليابانية المتاحة للجمهور.يشتمل كوربوس لدينا على 929 جمل مشروحة مع معلومات مورفو لوجية وتطبيعا، إلى جانب معلومات الفئة المصنفة لظواهر خاصة بوحشية UGT.أظهرت التجارب على الجثة أداء أداء منخفضة من أساليب MA / LN الحالية للكلمات غير العامة والنماذج غير القياسية، مما يشير إلى أن الكائن ستكون معيارا صعبا لمزيد من البحث حول UGT.
تعرف مهمة تحويل نص غير قياسي إلى نص قياسي وقابل للقراءة باسم التطبيع المعجمي. تتطلب جميع تطبيقات معالجة اللغة الطبيعية تقريبا (NLP) البيانات النصية في النموذج الطبيعي لإنشاء نماذج محددة ذات جودة عالية. وبالتالي، فقد ثبت التطبيع المعجمي لتحسين أداء ال عديد من مهام معالجة اللغة الطبيعية على وسائل التواصل الاجتماعي. تهدف هذه الدراسة إلى حل مشكلة التطبيع المعجمي من خلال صياغة مهمة التطبيع المعجمية مشكلة وضع علامة تسلسل. تقترح هذه الورقة نهج وضع علامة تسلسل لحل مشكلة التطبيع المعجمي في تركيبة مع تقنية محاذاة الكلمة. الهدف هو استخدام نموذج واحد لتطبيع النص باللغات المختلفة وهي الكرواتية والدنماركية والهولندية والإنجليزية والإندونيسية والإنجليزية والألمانية والإيطالية والصربية والسلوفينية والإسبانية والتركية والتركية والألمانية والألمانية. هذه مهمة مشتركة في عام 2021 ورشة العمل السابعة حول النص الناتج عن المستخدم الصاخب (W-NUT) "" من المتوقع أن يقوم المشاركون بإنشاء نظام / نموذج يقوم بتنفيذ التطبيع المعجمي، وهو ترجمة النصوص غير القانونية في تعادلهم الكنسي، الذين يشتملون على بيانات من أكثر من 12 لغة. يحقق النموذج المتعدد اللغوي المقترح نتيجة ERS الإجمالية من 43.75 بشأن التقييم الجوهري ونتيجة إجمالي درجة المرفقات (LAS) من 63.12 على التقييم الخارجي. علاوة على ذلك، تحقق الطريقة المقترحة أعلى نقاط معدل تخفيض الأخطاء (ERR) من 61.33 من بين المشاركين في المهمة المشتركة. تسلط هذه الدراسة الضوء على آثار استخدام بيانات تدريب إضافية للحصول على نتائج أفضل وكذلك استخدام نموذج لغة مدرب مسبقا تدرب على لغات متعددة بدلا من لغة واحدة فقط.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا