ترغب بنشر مسار تعليمي؟ اضغط هنا

باستخدام بيانات سرية لتكييف المجال من الترجمة الآلية العصبية

Using Confidential Data for Domain Adaptation of Neural Machine Translation

223   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن ندرس مشكلة تكيف المجال في الترجمة الآلية العصبية (NMT) عند مشاركة البيانات الخاصة بالمجال بسبب سرية أو مشكلات حقوق النشر.كخطوة أولى، نقترح بيانات الشظية في أزواج العبارة واستخدام عينة عشوائية لحن نموذج NMT عام بدلا من الجمل الكاملة.على الرغم من فقدان شرائح طويلة من أجل حماية السرية، نجد أن جودة NMT يمكن أن تستفيد كثيرا من هذا التكيف، وأنه يمكن الحصول على مزيد من المكاسب مع تقنية علامات بسيطة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا لكبير، والانفجار النموذجي. لمعالجة هذه المشكلات الثلاثة، نقترح طريقة للتقسيم والتغلب عليها "والتي تعتمد على أهمية الخلايا العصبية أو المعلمات لنموذج الترجمة. في هذه الطريقة، نقوم أولا بإزالة النموذج ويحافظ على الخلايا العصبية أو المعلمات المهمة فقط، مما يجعلها مسؤولة عن كل من المجال العام والترجمة داخل المجال. ثم علينا مزيد من تدريب النموذج المعاني الذي يشرف عليه النموذج الكامل الأصلي مع تقطير المعرفة. أخيرا، نوسع النموذج إلى الحجم الأصلي وضبط المعلمات المضافة للترجمة داخل المجال. أجرينا تجارب على أزواج ومجالات مختلفة للغة والنتائج تظهر أن طريقتنا يمكن أن تحقق تحسينات كبيرة مقارنة بالعديد من خطوط الأساس القوية.
تعتبر هذه الورقة مشكلة تكيف المجال غير المدعومة من أجل الترجمة الآلية العصبية (NMT)، حيث نفترض الوصول إلى نص أحادي فقط إما في المصدر أو اللغة المستهدفة في المجال الجديد. نقترح طريقة اختيار البيانات عبر اللغات لاستخراج الجمل داخل المجال في جانب اللغة المفقودة من كوربوس أحادية الأجل عام كبيرة. تقوم طريقةنا المقترحة بتدريب طبقة تكيفية على رأس بيرتف متعدد اللغات من خلال التعلم المتعرج عن تعايز التمثيل بين المصدر واللغة المستهدفة. ثم يتيح ذلك تحويل قابلية تحويل المجال بين اللغات بطريقة طلقة صفرية. بمجرد اكتشاف البيانات داخل المجال من قبل المصنف، يتم بعد ذلك تكييف نموذج NMT بالمجال الجديد من خلال مهام الترجمة التعلم المشتركة ومهام التمييز بين المجال. نقيم طريقة اختيار بياناتنا عبر اللغات لدينا على NMT عبر خمسة مجالات متنوعة في ثلاث أزواج لغوية، وكذلك سيناريو في العالم الحقيقي للترجمة Covid-19. تظهر النتائج أن أسلوبنا المقترح تتفوق على خطوط خطوط خطوط اختيار الاختيار الأخرى تصل إلى +1.5 درجة بلو.
في هذه الورقة، نقدم نهجا جديدا لتكييف المجال في الجهاز العصبي الذي يهدف إلى تحسين جودة Thetranslation على نطاق جديد. إضافة مجالات جديدة هي مهمة عالية تحديا لبيانات الترجمة الآلية العصبية، يصبح أكثر عبادة منتشرةالمجالات الفنية مثل Chem-Istry والذكاء ا لاصطناعي بسبب مصطلحات Spe-Sicific، إلخ. نقترح أسلوب الترجمة الخلفي العجول Domainspecific والتي تنوع بيانات الأحادية المتوفرة والبيانات الاصطناعية العامة بطريقة مختلفة. هذا النهج يستخدم خارج الكلمات. النهجعام جدا ويمكن أن تقوم بالياف بأي زوج لغة لأي مجال.نقوم بإجراء تجاربنا على الكنديمان والذكاء الاصطناعي) من أجل اللغة الهندية والتيلجو في كل من direc-tions.وقد لوحظ أن استخدام البيانات الاصطناعية الاستخدام التي تم إنشاؤها بواسطة proposedalgorithm يحسن درجات بلو بشكل كبير.
تحتاج أنظمة الإنتاج NMT عادة إلى خدمة مجالات المتخصصة التي لا تغطيها كوربيا كبيرة ومتاحة بسهولة بشكل مناسب.ونتيجة لذلك، غالبا ما يكون الممارسون نماذج غرضا عاما نماذج عامة على كل من المجالات التي يلبيها منظمةها.ومع ذلك، يمكن أن يصبح عدد المجالات كبيرا ، مما يتجمع مع عدد اللغات التي تحتاج إلى خدمة يمكن أن تؤدي إلى وضع أسطول غير قابل للحل من النماذج والمحافظة عليها.نقترح علامات متعددة الأبعاد، وهي طريقة لضبط نموذج NMT واحد على عدة مجالات في وقت واحد، وبالتالي تقليل تكاليف التطوير والصيانة بشكل كبير.نحن ندير تجارب حيث يقارن نموذج واحد MDT بشكل إيجابي لمجموعة من نماذج SOTA متخصصة، حتى عند تقييمها على المجال كانت تلك الأساس التي تم ضبطها بشكل جيد.إلى جانب بلو، نبلغ عن نتائج التقييم البشري.تعيش نماذج MDT الآن في Booking.com، مما يؤدي إلى تشغيل محرك MT الذي يخدم ملايين الترجمات يوميا في أكثر من 40 لغة مختلفة.
أنظمة الترجمة الآلية عرضة لمواطيات المجال، خاصة في سيناريو منخفض الموارد.غالبا ما تكون ترجمات خارج النطاق ذات جودة رديئة وعرضة للهلوسة، بسبب تحيز التعرض والكشف بمثابة نموذج لغة.نعتمد نهجين لتخفيف هذه المشكلة: القائمة المختصرة المعجمية مقيدة بمحاذاة إ يماء IBM، وفرض الفرضية القائمة على التشابه.الأساليب هي رخيصة حسابية وتظهر النجاح على مجموعات اختبار الموارد المنخفضة من الموارد.ومع ذلك، فإن الطرق تفقد ميزة عند وجود بيانات كافية أو عدم تطابق مجال كبير جدا.يرجع ذلك إلى كل من نموذج IBM يفقد ميزته على المحاذاة العصبية المستفادة ضمنيا، وقضايا تجزئة الكلمات الفرعية للكلمات غير المرئية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا