ترغب بنشر مسار تعليمي؟ اضغط هنا

التحلل الطابع الصيني ل MT العصبي مع تعبيرات متعددة الكلمات

Chinese Character Decomposition for Neural MT with Multi-Word Expressions

193   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم استخدام تحلل الطابع الصيني كميزة لتعزيز نماذج الترجمة الآلية (MT)، والجمع بين المتطرفين في طرازات حرف مستوى الكلمة.حققت العمل الحديث في الأيديوجراف أو تضمين مستوى السكتة الدماغية.ومع ذلك، تبقى الأسئلة حول مستويات التحلل المختلفة من تمثيلات الأحرف الصينية، والراديكالية والسكتات الدماغية، والأمن الأكون مناسبة لجبل.للتحقيق في تأثير تضمين التحلل الصيني بالتفصيل، أي المستويات الجذعية والسكتة الدماغية والسكتة الدماغية، ومدى جودة تحلل هذه التحلل معنى تسلسل الأحرف الأصلية، نقوم بإجراء تحليل مع كل من التقييم الآلي والإنساني ل MT.علاوة على ذلك، يمكننا التحقيق في ما إذا كان يمكن أن يعزز مزيج التعبيرات المتعددة الكلمة المتحللة (MWES) التعلم النموذجي.شهدت تكامل MWE في MT أكثر من عقد من الاستكشاف.ومع ذلك، لم يتم استكشاف mwes المتحللة سابقا.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة محاولة في اكتشاف تعبيرات متعددة الكلمات (MWES) في اللغة الفارسية.وهي تركز على استخراج MWES التي تحتوي على لام من مجموعة معينة: الكلمات المستعارة في الفارسية وما يعادلها التي اقترحتها أكاديمية اللغة الفارسية والأدب.من أجل اكتشاف مثل هذ ه MWES، يتم استخدام أربع تدابير جمعية (AMS) وتقييمها.أخيرا، يتم تحليل قائمة MWES المستخرجة، ويتم عرض مقارنة بين التعبيرات ذات الكلمات المستعارة وما يعادلها.لمعرفةنا، هذه هي المرة الأولى التي يتم فيها توفير مثل هذا التحليل للغة الفارسية.
يتم تعريف Sememes على أنها الوحدات الذرية لوصف المعنى الدلالي للمفاهيم.نظرا لصعوبة التعليق يدويا في التسجيل يدويا واستنادا إلى التعليق بين الخبراء، فقد تم اقتراح مهمة تنبؤات النظرة المعجمية.ومع ذلك، فإن الأساليب السابقة تعتمد بشدة على Word أو Artters dings، وتجاهل المعلومات المحبوسة الدقيقة.في هذه الورقة، نقترح طريقة رواية ما قبل التدريب والتي تم تصميمها لتحسين دمج المعلومات الداخلية للشخصية الصينية.يتم استخدام تمثيل الأحرف الصيني المحسنة Glyph (دول مجلس التعاون الخليجي) لمساعدة تنبؤة النظر.نقوم بتجربة وتقييم النموذج لدينا على HOWNET، وهو قاعدة المعرفة الشمالية الشهيرة.تظهر النتائج التجريبية أن أسلوبنا تتفوق على نماذج المعلومات غير الخارجية الموجودة.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم وذج الوالدين.نجد أن كلتا التقنيتين مفيدة وكافية للوصول إلى الأداء الذي يقارن مع أنظمة أكثر تطورا من مهمة 2020.بعد ذلك، نقدم تطبيق هذا النظام إلى مهمة 2021 للمزيد من الأغراض السربية العلوي تحت الإشراف (HSB) إلى الترجمة الألمانية، في كلا الاتجاهين.أخيرا، نقدم نظاما نظعا ل HSB-DE في كلا الاتجاهين، وللترجمة الألمانية غير الخاضعة للرقابة إلى أسفل ترجمة Sorbian (DSB)، والتي تستخدم التدريب المتعدد المهام مع مختلف جداول التدريب لتحسين الخط الأساسي.
تم استخدام أساليب الشبكة العصبية الحديثة الأخيرة (SOTA) وأساليب Neural العصبية الفعالة على أساس النماذج المدربة مسبقا (PTM) في تجزئة الكلمات الصينية (CWS)، وتحقيق نتائج رائعة. ومع ذلك، فإن الأعمال السابقة تركز على تدريب النماذج مع Corpus الثابتة في ك ل تكرار. المعلومات المتوسطة المتوسطة هي أيضا قيمة. علاوة على ذلك، فإن تقلب الأساليب العصبية السابقة محدودة بالبيانات المشروح على نطاق واسع. هناك عدد قليل من الضوضاء في كوربوس المشروح. بذلت جهود محدودة من قبل الدراسات السابقة للتعامل مع هذه المشاكل. في هذا العمل، نقترح نهج CWS الخاضع للإشراف ذاتيا بمعماري مباشر وفعال. أولا، ندرب نموذج تجزئة كلمة واستخدامه لتوليد نتائج التجزئة. بعد ذلك، نستخدم نموذج لغة مصنف منقح (MLM) لتقييم جودة نتائج التجزئة المستندة إلى تنبؤات الامتيازات. أخيرا، نستفيد من التقييمات لمساعدة تدريب القطاع من خلال تحسين الحد الأدنى من التدريب على المخاطر. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب السابقة في 9 مجموعات بيانات مختلفة CWS مع تدريب معايير واحدة وتدريب معايير متعددة وتحقيق متانة أفضل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا