ترغب بنشر مسار تعليمي؟ اضغط هنا

اختيار أفضل طريقة تصفية البيانات لتدريب NMT

Selecting the best data filtering method for NMT training

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ثبت أن أداء أنظمة NMT يعتمد على جودة بيانات التدريب.في هذه الورقة، نستكشف أدوات مختلفة مفتوحة المصدر التي يمكن استخدامها لتسجيل جودة أزواج الترجمة، بهدف الحصول على كورسا نظيفة لتدريب نماذج NMT.نقيس أداء هذه الأدوات من خلال ربط درجاتهم بالدرجات البشرية، وكذلك نماذج الرتبة المدربة على مجموعات البيانات التي تمت تصفيتها الناتجة من حيث أدائها في مجموعات اختبار مختلفة ومقاييس أداء MT.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT) . حول الملاحظة التي تتميز بها UGC لغة مشحونة بالثريات والمعنوية للغاية ونقترح نهج من جانب فك الترميز الذي يشتمل على الثقة التلقائية التي يتم تسجيلها في عملية اختيار مرشح MT. نحن ندرب مصنف المعنويات أحادية الأنتجة باللغة الإنجليزية والإسبانية بالإضافة إلى نموذج معنويات متعددة اللغات وثقل Berting Berting Bert و XLM-Roberta. باستخدام N-Best المرشحين الناتج عن نموذج خط الأساس MT مع البحث الشعاع ونختار المرشح الذي يقلل من الفرق المطلق بين درجة المعنويات من جملة المصدر والترجمة وأداء تقييمين بشري لتقييم الترجمات المنتجة. على عكس العمل السابق ونحن نقوم بتحديد هذا الترجمة المتباينة على الحد الأدنى من خلال النظر في درجات المعنويات من جملة المصدر والترجمة على الفاصل الزمني المستمر وبدون استخدام E.G. التصنيف الثنائي والسماح باختيار أكثر غرامة من مرشحي الترجمة. تظهر نتائج التقييمات البشرية أنه وبالمقارنة مع نموذج خط الأساس MT مفتوح المصدر على رأسه مبني أن خط أنابيب القائم على المعنويات مبنية وينتج خط أنابيبنا ترجمة أكثر دقة للنصوص المصدر الثقيلة العامية والمعنويات.
طُبق مفهوم إعادة استخدام التردد بشكل ناجح في أنظمة الاتصالات الخليوية الحديثة، من أجل زيادة سعة النظام، من الممكن إحداث تحسُّن آخر في السعة بتطبيق المصفوفات المتكيفة في المحطة الأساسية، يستخدم من أجل ملاحقة المستخدمين المرغوبين خوارزميات إيجاد الاتجا ه من أجل تحديد أماكنهم وفقاً لحركتهم ضمن الخلايا أو فيمابينها. اقترح مؤخراً خوارزميات إيجاد الاتجاه المعتمدة على الشبكات العصبونية وذلك لإيجاد اتجاه المنبع عن طريق تقييم أداء الشبكات العصبونية بمقارنة توقعاتها وانحرافها المعياري ومتوسط الخطأ التربيعي بين قيمها المتوقعة وبين ماتم قياسه، هذا البحث يعتمد هذا المنحى حيث يتم مقارنة خرج الهوائيات المصفوفية من حيث المطال، ثم اختيار الإشارة ذات المطال الأفضل وإظهارها على الخرج النهائي للنظام.
نقترح مهمة مشتركة على اختيار مثيل التدريب لعدد قليل من الجيل العصبي العصبي.أدت نماذج اللغة المحددة مسبقا على نطاق واسع إلى تحسينات مثيرة في جيل نص قليل.ومع ذلك، فإن كل العمل السابق تقريبا يطبق ما عليك سوى أخذ عينات عشوائية لتحديد مثيلات التدريب القلي لة.لقد تم إيلاء الاهتمام ليس إلى استراتيجيات الاختيار وكيف سيؤثرون على أداء النموذج.دراسة استراتيجية الاختيار يمكن أن تساعدنا (1) الاستفادة القصوى من ميزانية التوضيحية الخاصة بنا في مهام المصب و (2) من أفضل النماذج الإندارية النصية ذات القليل من القصاصات.نرحب بالتقديمات التي تقدم استراتيجيات اختيارها والآثار على جودة الجيل.
هناك نوعان مناهضين لتسجيل الجملة الزوجية: التشفير المكونات، مما أداء الانتباه الكامل عبر زوج الإدخال، والترميزات الثنائية، والتي تعريش كل مدخلات بشكل مستقل إلى مساحة متجهية كثيفة. في حين أن التشفير المتقاطعة غالبا ما يحقق أداء أعلى، فهي بطيئة للغاية بالنسبة للعديد من حالات الاستخدام العملية. تتطلب الزيادة الثنائية، من ناحية أخرى، بيانات تدريبية كبيرة وصقل جيد على المهمة المستهدفة لتحقيق الأداء التنافسي. نقدم استراتيجية بسيطة لكنها فعالة تكافؤية تدعى Sbert المعزز، حيث نستخدم المشفرين في التسمية مجموعة أكبر من أزواج المدخلات لزيادة بيانات التدريب الخاصة ببيانات التدريب. نظرا لأنه في هذه العملية، فإن اختيار أزواج الجملة غير تافهة وحاسمة لنجاح الطريقة. نقيم نهجنا على مهام متعددة (داخل المجال) وكذلك في مهمة تكيف مجال المجال. يحقق Sbert المعزز تحصين يصل إلى 6 نقاط مقابل المجال وعلى ما يصل إلى 37 نقطة لمهام تكيف المجال مقارنة بالأداء الأصلي ثنائي التشفير.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا