ترغب بنشر مسار تعليمي؟ اضغط هنا

من المعروف أن تحليل الخطاب أمرا أساسيا في معالجة اللغة الطبيعية.في هذا البحث، نقدم نظرة ثاقبة حول تحليل سلسلة موضوعات مستوى الخطاب (DTC) التي تهدف إلى اكتشاف مواضيع جديدة والتحقيق في كيفية تطور هذه الموضوعات بمرور الوقت داخل مقال.لمعالجة عدم وجود بيا نات، نساهم في كوربس خطاب جديد مع الرسوم البيانية التبعية على غرار DTC المشروح عند المقالات الإخبارية.على وجه الخصوص، نضمن الموثوقية العالية للدور من خلال الاستفادة من استراتيجية توضيحية من خطوتين لبناء البيانات وتصفية التعليقات التوضيحية بدرجات ثقة منخفضة.بناء على Corpus المشروح، نقدم نظاما بسيطا ولكنك قوي لتخليص سلسلة موضوع الخطاب التلقائي.
تقوم الترجمة العصبية متعددة اللغات (MNMT) بتدريب نموذج NMT واحد يدعم الترجمة بين لغات متعددة، بدلا من تدريب نماذج منفصلة لغات مختلفة. تعلم نموذج واحد يمكن أن يعزز الترجمة المنخفضة الموارد من خلال الاستفادة من البيانات من لغات متعددة. ومع ذلك، فإن أدا ء نموذج MNMT يعتمد اعتمادا كبيرا على نوع اللغات المستخدمة في التدريب، حيث أن نقل المعرفة من مجموعة متنوعة من اللغات تتحلل أداء الترجمة بسبب النقل السلبي. في هذه الورقة، نقترح مقاربة تقطير المعرفة التسلسل الهرمية (HKD) ل MNMT والتي تتمتع بالجماعات اللغوية التي تم إنشاؤها وفقا للميزات النموذجية والهلوجين من اللغات للتغلب على مسألة النقل السلبي. ينشئ HKD مجموعة من نماذج مساعد المعلم متعددة اللغات عبر آلية تقطير المعرفة الانتقائية تعتمد على مجموعات اللغات، ثم قم بالتقطير النموذج النهائي متعدد اللغات من المساعدين بطريقة تكيف. النتائج التجريبية المشتقة من مجموعة بيانات TED مع 53 لغة توضح فعالية نهجنا في تجنب تأثير النقل السلبي في MNMT، مما يؤدي إلى أداء ترجمة محسنة (حوالي 1 درجة بلو في المتوسط) مقارنة مع خطوط الأساس القوية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا