ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم ميزة الأوزان باستخدام النمذجة المكافأة ل Denoising Corpora الموازي

Learning Feature Weights using Reward Modeling for Denoising Parallel Corpora

208   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تمثل شركة كورسا الكبيرة من الويب موردا ممتازا لتحسين أداء أنظمة الترجمة الآلية العصبية (NMT) عبر العديد من أزواج اللغة. ومع ذلك، نظرا لأن هذه كورسيا صاخبة للغاية، فإن استخدامها محدود إلى حد ما. تركز النهج الحالية للتعامل مع هذه المشكلة أساسا على الترشيح باستخدام الاستدلال أو ميزات واحدة مثل درجات نموذج اللغة أو التشابه الثنائي اللغوي. يقدم هذا العمل نهجا بديلا يتعلم الأوزان لميزات متعددة على مستوى الجملة. يتم استخدام هذه الأوزان الميزة التي تم تحسينها مباشرة لمهمة تحسين أداء الترجمة، وتسجيل الجمل والتصفية في كورسا صاخبة بشكل أكثر فعالية. نحن نقدم نتائج تطبيق هذه التقنية لبناء أنظمة NMT باستخدام Corpus Paracrawl For Estonian-English وإظهار أنه يدق خطوط خطوط ميزة واحدة قوية ومجموعات مصممة باليد. بالإضافة إلى ذلك، نقوم بتحليل حساسية هذه الطريقة لأنواع مختلفة من الضوضاء واستكشاف إذا تعميم الأوزان المستفادة إلى أزواج لغة أخرى باستخدام Corpus Maltese-English Paracrawl Corpus.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
بالنسبة لأنظمة الحوار الموجهة نحو المهام، قم بتدريب وحدة إدارة حوار التعزيز المستندة (RL) تعاني من كفاءة عينة منخفضة وسرعة تقارب بطيئة بسبب المكافآت المتفرعة في RL.لحل هذه المشكلة، اقترح العديد من الاستراتيجيات لإعطاء المكافآت المناسبة عند التدريب RL ، لكن مكافآتها تفتقر إلى التفسير ولا يمكنها تقديرها بدقة توزيع أزواج عمل الدولة في الحوار الحقيقية.في هذه الورقة، نقترح نهج نمذجة مكافأة متعددة المستويات يعكس مكافأة في التسلسل الهرمي من ثلاثة مستويات: المجال والفعال والفتحة.بناء على تعلم التعزيز العسكري العكسي، يمكن لنموذج المكافآت المصمم لدينا توفير إشارات مكافأة أكثر دقة وتفسير لأزواج عمل الدولة.تشير التقييمات الواسعة إلى أن نهجنا يمكن تطبيقه على مجموعة واسعة من أنظمة الحوار التعبير في التعلم وتحسن بشكل كبير من كل الأداء وسرعة التقارب.
تقدم الورقة تقديمنا إلى المهمة المشتركة WMT2021 بشأن تقدير الجودة (QE).نشارك في تنبؤات مستوى الجملة للأحكام البشرية وجهد ما بعد التحرير.نقترح نهج زجاجي مربع بناء على الاهتمام للأوزان المستخرجة من أنظمة الترجمة الآلية.على النقيض من الأعمال السابقة، نس تكشف مباشرة مصفوفات وزن الاهتمام دون استبدالها بمقاييس عامة (مثل Entropy).نظهر أن بعض نماذجنا يمكن تدريبها بكمية صغيرة من البيانات ذات التكلفة العالية.في غياب البيانات التدريبية، لا يزال نهجنا يوضح ارتباطا خطيا معتدلا، عند تدريب البيانات الاصطناعية.
تتمثل إدارة المصطلح والمصطلان بخطوات حيوية لإعداد كل أخصائي لغة، ولعب دورا مهما للغاية في مرحلة تعليم محترفي الترجمة.يتزايد الاتجاه المتزايد من إدارة الوقت الفعالة والقيود الزمنية المستمرة التي قد نلاحظها في كل قطاع عمل بزيادة ضرورة تجميع المسرد التل قائي.تعتمد العديد من أنظمة AET ثنائية اللغة أداء جيدا على معالجة البيانات الموازية، ومع ذلك، فإن هذه الشركات الموازية ليست متاحة دائما لمجال معين أو زوج لغة.يعد الوصول إلى المجال الخاص، والوصول ثنائي اللغة إلى المعلومات واسترجاعه بناء على شركة Corpora المقارنة مجالا واعدةا كبيرا من البحث يتطلب تحليلا مفصلا لكلا من مصادر البيانات المتوفرة وتقنيات الاستخراج المحتملة.يركز هذا العمل على استخراج المصطلحات التلقائية الخاصة بالمجال من شركة Corga المقارنة للزوج باللغة الإنجليزية - اللغة الروسية من خلال الاستفادة من تضمين الكلمات العصبية.
يهدف العمل الحالي إلى تعيين درجة التعقيد بين 0 و 1 كلمة أو عبارة مستهدفة في جملة معينة.بالنسبة لكل هدف لكلمة واحدة، يتم تدريب Rame Forest Regressor على مجموعة ميزة تتكون من معلومات معجمية ودلالة وندرة حول الهدف.بالنسبة لكل هدف متعدد الكلمات، يتم أخذ مجموعة من ميزات الكلمات الفردية مع تعقيدات كلمة واحدة في مساحة الميزة.أسفر النظام عن ارتباط بيرسون ب 0.7402 و 0.8244 في مجموعة الاختبار للأهداف الفردية ومتعددة الكلمات، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا