ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم المستمر في NMT متعدد اللغات عبر المدينات الخاصة باللغة

Continual Learning in Multilingual NMT via Language-Specific Embeddings

517   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقترح هذه الورقة تقنية لإضافة مصدر جديد أو لغة مستهدفة إلى نموذج NMT متعدد اللغات الحالي دون إعادة تدريبه في المجموعة الأولية للغات.وهي تتألف في استبدال المفردات المشتركة مع المفردات الصغيرة الخاصة باللغة ولقلها تضمين المدينات الجديدة على البيانات المتوازية باللغة الجديدة.قد يتم تدريب بعض المكونات الإضافية الخاصة باللغة على تحسين الأداء (مثل طبقات المحولات أو وحدات المحولات).لأن معلمات النموذج الأصلي لا يتم تعديلها، فإن أدائها على اللغات الأولية لا تتحلل.نظهر على مجموعتين من التجارب (نطاق صغير على محادثات تيد، واسعة النطاق على الباراسراول) أن هذا النهج ينفذ كذلك أو أفضل كمادة أكثر تكلفة؛وأنه يحتوي على أداء ممتازة للصفر: التدريب على البيانات المرن الإنجليزية يكفي للترجمة بين اللغة الجديدة وأي من اللغات الأولية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح مخطط تكييف المفردات المباشر لتوسيع نطاق القدرة اللغوية لنماذج الترجمة متعددة اللغات، مما يمهد الطريق نحو التعلم المستمر الفعال للترجمة الآلية متعددة اللغات.نهجنا مناسب لمجموعات البيانات واسعة النطاق، ينطبق على اللغات البعيدة مع البرامج النصية غ ير المرئية، وتحتل التدهور البسيط فقط على أداء الترجمة لأزواج اللغة الأصلية ويوفر أداء تنافسي حتى في الحالة التي نمتلك فيها بيانات أحادية الألوان فقط للغات الجديدة.
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
في الآونة الأخيرة، تؤدي نماذج اللغات المدربة مسبقا مؤخرا (على سبيل المثال، بيرت متعددة اللغات) إلى المهام المتقاطعة المصب هي نتائج واعدة.ومع ذلك، فإن عملية التوصيل الدقيقة تغيرت حتما معلمات النموذج المدرب مسبقا ويضعف قدرتها على اللغات، مما يؤدي إلى أ داء فرعي الأمثل.لتخفيف هذه المشكلة، نستفيد من التعلم المستمر للحفاظ على قدرة اللغة الأصلية المتبادلة النموذجية المدربة مسبقا عندما نتنزهها إلى مهام المصب.توضح النتيجة التجريبية أن أساليبنا الراقية الخاصة بنا يمكن أن تحافظ بشكل أفضل على القدرة المتبادلة النموذجية المدربة مسبقا في مهمة استرجاع الجملة.حقق طرقنا أيضا أداء أفضل من خطوط الأساس الأخرى ذات الصقل الرصيف على علامة العلامة بين العلامات بين الكلام الصفرية عبر اللغات ومهام التعرف على الكيان المسماة.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد (زوج لغة أو مجال). في هذا العمل، ندرس تكوين محولات اللغة والمجال في سياق الترجمة الآلية. نحن نهدف إلى الدراسة، 1) التكيف الفعال مع المعلمة إلى مجالات متعددة ولغات في وقت واحد (سيناريو الموارد الكاملة) و 2) نقل عبر اللغات في المجالات حيث تكون البيانات الموازية غير متوفرة لأزواج لغة معينة (سيناريو الموارد الجزئية). نجد أنه في سيناريو الموارد الجزئي مزيجا ساذجا من محولات محولات خاصة بالمجال وغالبا ما ينتج عن النسيان الكارثي باللغات المفقودة. ندرس طرق أخرى للجمع بين المحولات لتخفيف هذه المشكلة وتعظيم التحويل عبر اللغات. من خلال أفضل مجموعات محول لدينا، نحصل على تحسينات من 3-4 بلو في المتوسط ​​لغات المصدر التي لا تملك بيانات داخل المجال. بالنسبة للغات المستهدفة دون بيانات داخل المجال، نحقق تحسن مماثل عن طريق الجمع بين المحولات بالترجمة الخلفي. تتوفر مواد تكميلية في https://tinyurl.com/r66stbxj.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا