ترغب بنشر مسار تعليمي؟ اضغط هنا

التعامل مع عدم تطابق تجزئة التدريب والاختبار: FBK @ IWSLT2021

Dealing with training and test segmentation mismatch: FBK@IWSLT2021

155   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توضح هذه الورقة تقديم نظام FBK إلى مهمة ترجمة الكلام IWSLT 2021. شاركنا نموذجا مباشرا، وهو عبارة عن بنية قائمة على المحولات المدربة لتترجم بيانات صوت الكلام باللغة الإنجليزية إلى نصوص ألمانية. يتميز خط أنابيب التدريب بتقطير المعرفة وإجراءات ضبط ناعم من خطوتين. يتم تنفيذ كل من تقطير المعرفة والخطوة الأولى الدقيقة على البيانات الحقيقية والاصطناعية مجزأة يدويا، والذي يتم إنشاؤه في هذا الأخير بنظام MT المدرب على الشركة المتاحة. بشكل مختلف، يتم تنفيذ خطوة التشغيل الدقيقة الثانية في تجزئة عشوائية ل DataSet MUST-C V2 EN-DE. هدفها الرئيسي هو تقليل قطرات الأداء التي تحدث عندما يتم تقييم نموذج الترجمة الكلام على البيانات المجزأة يدويا (I.E. لنفس الغرض، يتم تطبيق إجراء تجزئة هجينة مخصص تمثل كلا المحتوى الصوتي (توقف) وطول القطاعات المنتجة على بيانات الاختبار قبل تمريرها إلى النظام. في وقت الاستنتاج، قارننا هذا الإجراء مع طريقة تجزئة خط الأساس استنادا إلى اكتشاف نشاط الصوت (VAD). تشير نتائجنا إلى فعالية النهج الهجين المقترح، الذي أظهره تخفيض الفجوة مع تجزئة يدوية من نقاط بلو 8.3 إلى 1.4.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها م ما قبل التدريب ومهام CWS المصب.في هذه الورقة، نقترح MetASE مطلقا مدربا مسبقا مسبقا CWS، والذي توظف هندسة موحدة ويشمل خوارزمية التعلم المعتوية في مهمة ما قبل التدريب متعدد المعايير.تظهر النتائج التجريبية أن METASEG يمكن أن تستخدم معرفة تجزئة مسبقة مشتركة من المعايير الحالية المختلفة وتخفيف التناقض بين النماذج المدربة مسبقا ومهام CWS المصب.علاوة على ذلك، يمكن أن يحقق MetASEG أداء جديدا على أحدث بيانات CWS المستخدمة على نطاق واسع وتحسين أداء النموذج بشكل كبير في إعدادات الموارد المنخفضة.
في تقدير الجودة (QE)، يمكن التنبؤ بجودة الترجمة بالرجوع إلى الجملة المصدر وإخراج الترجمة الآلية (MT) دون الوصول إلى الجملة المرجعية. ومع ذلك، هناك مفارقة في أن بناء مجموعة بيانات لإنشاء نموذج QE يتطلب عمالة إنسانية غير تافهة ووقت، وقد يتطلب جهدا إضاف يا مقارنة بتكلفة بناء كائن موازي. في هذه الدراسة، لمعالجة هذه المفارقة واستخدام تطبيقات QE المختلفة، حتى في لغات الموارد المنخفضة (LRLS)، نقترح طريقة لإنشاء مجموعة بيانات Pseudo-QE الخاصة دون استخدام العمل البشري. نقوم بإجراء تحليل مقارن على مجموعة بيانات الزائفة QE باستخدام نماذج لغة متعددة اللغات مسبقا. نظرا لأننا نولد مجموعة بيانات الزائفة، فإننا نقوم بإجراء تجارب باستخدام مختلف المترجمين الأجهزة الخارجية كمجموعات اختبار للتحقق من دقة النتائج بموضوعية. أيضا، تظهر النتائج التجريبية أن البارت المتعدد اللغات يوضح أفضل أداء، ونؤكد تطبيق QE في LRLS باستخدام طرق البناء Pseudo-QE DataSet.
نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعا ت التدريب مما لوحظ في البحث السابق.بالإضافة إلى ذلك، ندرس نهجا قائما للترجمة المنافسة للغات مع بيانات تدريبية أكثر محدودة وصاخبة.
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال استعلامات والمرورات، أيضا في وجود عدم تطابق الكلمات الرئيسية، أي الممرات ذات الصلة بالاستعلام ولكن لا تحتوي على كلمات رئيسية مهمة. في هذه الورقة، نعتبر المسترد الكثيف (DR) وطريقة استرجاع الممر، و Re-Ranker Reveer، وهي طريقة إعادة ترتيب الشعبية. في هذا السياق، نحقق رسميا كيفية استجابة هذه النماذج والتكيف مع نوع معين من عدم تطابق الكلمة الرئيسية - التي تحدث عن طريق الكلمة الأساسية التي تحدث في استفسارات. من خلال التحقيق التجريبي، نجد أن الأخطاء المطبعية يمكن أن تؤدي إلى انخفاض كبير في فعالية الاسترجاع والترتيب. بعد ذلك اقترحنا إطارا بسيطا للتدريب في الطباعة المطبعية عن DR و Bert Re-Ranker لمعالجة هذه المسألة. نظرا لنتائجنا التجريبية على مجموعة بيانات مرتبة مرور MS MARCO، بإظهار مجموعة بيانات MS MARCO، من خلال التدريب على الأخطاء المطبعية المقترحة، يمكن أن يصبح تدريب DR و Bert Re-Ranker قويا للمخططات المطبعية في الاستفسارات، مما يؤدي إلى تحسين فعالية محسنة بشكل كبير مقارنة بالنماذج المدربة دون محاسبة بشكل مناسب عن الأخطاء المطبعية.
تحتوي هذه الورقة على وصف لتقديم معهد Karlsruhe للتكنولوجيا (KIT) لمهمة ترجمة TEDX متعددة اللغات في حملة تقييم IWSLT 2021.نهجنا الرئيسي هو تطوير كل من النظم المتتالية ونظم نهاية إلى نهاية وتجمع بينها في نهاية المطاف لتحقيق أفضل النتائج الممكنة لهذا ال إعداد المنخفض للغاية الموارد.يؤكد التقرير أيضا تحسين بعض التحسن المعماري المتسق إضافته إلى بنية المحولات، لجميع المهام: ترجمة الترجمة والنسخ والنطق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا