ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج مخصصات المجال الرخيصة من أجل تجزئة الكلمات المشتركة ووضع العلامات على نقاط البيع

A Fine-Grained Domain Adaption Model for Joint Word Segmentation and POS Tagging

422   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد مخصصات المجال لتقسيم الكلمات وعلامات نقاط البيع مشكلة صعبة للمعالجة المعجمية الصينية. التدريب الذاتي هو حل واعد فيه، الذي يكافح من أجل بناء مجموعة من مثيلات التدريب الزائفة عالية الجودة للنطاق المستهدف. عادة ما يفترض العمل السابق تكييفا عالميا من المصادر إلى الهدف لجمع مثل هذه الكائنات الزائفة، مما يتجاهل الفجوات المختلفة من الجمل المستهدفة إلى مجال المصدر. في هذا العمل، نبدأ من تجزئة الكلمات المشتركة ووضع علامات على نقاط البيع، وتقديم طريقة تكييف مجال Ground-Gromins لنموذج الفجوات بدقة. نقيس الفجوات بواسطة متري واحد بسيط وبديهي، واعتمادها لتطوير كوربوس المجال المستهدف الزائف بناء على النطاقات الفرعية المحبوبة بشكل جيد تدريجيا. يقترح نموذج التعلم التمثيل المختلط بين المجال الجديد وفقا لذلك لترميز المجال الفرعي المتعدد بشكل فعال. يتم تنفيذ العملية بأكملها تدريجيا لكل من Corpus Construction والنموذج التدريب. تظهر النتائج التجريبية على مجموعة بيانات معيار أن طريقتنا يمكن أن تكتسب تحسينات كبيرة على تختلف عن خطوط الأساس. يتم إجراء تحليلات واسعة لإظهار مزايا نموذج تكييف المجال النهائي لدينا أيضا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد التطبيع المعجمي، بالإضافة إلى تقسيم الكلمات وعلامات جزء من الكلام، مهمة أساسية لمعالجة النصية اليابانية التي أنشأها المستخدم.في هذه الورقة، نقترح نموذج تحرير النصوص لحل المهمة الثلاثة المشتركة وطرق توليد البيانات المسمى Pseudo للتغلب على مشكلة نق ص البيانات.أظهرت تجاربنا أن النموذج المقترح حقق أداء تطبيع أفضل عند التدريب على بيانات أكثر تنوعا المصممة بالقطرات.
تم تطبيق نماذج تجزئة الكلمات القائمة على الأحرف على نطاق واسع على اللغات الشاقة، بما في ذلك التايلاندية، بسبب أدائها العالي.هذه النماذج تقدر حدود الكلمات من تسلسل الأحرف.ومع ذلك، فإن وحدة الأحرف في تسلسل ليس لها معنى أساسي، مقارنة بكل وحدات الكتلة ال كلمة والكلمة الفرعية.نقترح نموذج تجزئة الكلمات التايلاندية يستخدم أنواعا مختلفة من المعلومات، بما في ذلك الكلمات والكلمات الفرعية ومجموعات الأحرف، من تسلسل الأحرف.ينطبق نموذجنا على انتباه متعددة لتحسين استنتاجات تجزئة من خلال تقدير العلاقات الكبيرة بين الشخصيات وأنواع الوحدات المختلفة.تشير النتائج التجريبية إلى أن نموذجنا يمكن أن يتفوق على نماذج تجزئة الكلمات التايلاندية الأخرى.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
تم استخدام أساليب الشبكة العصبية الحديثة الأخيرة (SOTA) وأساليب Neural العصبية الفعالة على أساس النماذج المدربة مسبقا (PTM) في تجزئة الكلمات الصينية (CWS)، وتحقيق نتائج رائعة. ومع ذلك، فإن الأعمال السابقة تركز على تدريب النماذج مع Corpus الثابتة في ك ل تكرار. المعلومات المتوسطة المتوسطة هي أيضا قيمة. علاوة على ذلك، فإن تقلب الأساليب العصبية السابقة محدودة بالبيانات المشروح على نطاق واسع. هناك عدد قليل من الضوضاء في كوربوس المشروح. بذلت جهود محدودة من قبل الدراسات السابقة للتعامل مع هذه المشاكل. في هذا العمل، نقترح نهج CWS الخاضع للإشراف ذاتيا بمعماري مباشر وفعال. أولا، ندرب نموذج تجزئة كلمة واستخدامه لتوليد نتائج التجزئة. بعد ذلك، نستخدم نموذج لغة مصنف منقح (MLM) لتقييم جودة نتائج التجزئة المستندة إلى تنبؤات الامتيازات. أخيرا، نستفيد من التقييمات لمساعدة تدريب القطاع من خلال تحسين الحد الأدنى من التدريب على المخاطر. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب السابقة في 9 مجموعات بيانات مختلفة CWS مع تدريب معايير واحدة وتدريب معايير متعددة وتحقيق متانة أفضل.
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في نموذج الاتساق المنطقي بين محفوظات الحوار والاستجابة الناتجة. في الآونة الأخيرة، تم اقتراح مهمة حوار جديدة متعددة الدوران، لتسهيل أبحاث التفكير الحوار. ومع ذلك، هذه المهمة صعبة، لأن هناك اختلافات طفيفة فقط بين الاستجابة غير المنطقية وتاريخ الحوار. كيفية حل هذا التحدي فعال لا يزال يستحق الاستكشاف. تقترح هذه الورقة نموذج مقارنة غرامة (FCM) لمعالجة هذه المشكلة. مستوحاة من سلوك الإنسان في فهم القراءة، يقترح تركيز آلية المقارنة على الاختلافات الجميلة في تمثيل كل مرشح استجابة. على وجه التحديد، يتم مقارنة كل تمثيل مرشح بالسجل بأكمله للحصول على تمثيل تناسق التاريخ. علاوة على ذلك، تعتبر إشارات الاتساق بين كل مرشح وتاريخ مكبر الصوت في قيادة نموذج يفضل مرشحا متسقا منطقيا مع منطق تاريخ المتكلم. أخيرا، يتم توظيف تمثيلات الاتساق أعلاه لإخراج قائمة التصنيفات من ردود المرشحين لتفويض الحوار متعدد الدوران. النتائج التجريبية على مجموعة بيانات الحوار العامة تظهر أن طريقتنا تحصل على درجات أعلى تصنيف من النماذج الأساسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا