ترغب بنشر مسار تعليمي؟ اضغط هنا

التعامل مع تسميات بيانات التدريب الصاخبة في كشف إعادة صياغة

Coping with Noisy Training Data Labels in Paraphrase Detection

586   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعات التدريب مما لوحظ في البحث السابق.بالإضافة إلى ذلك، ندرس نهجا قائما للترجمة المنافسة للغات مع بيانات تدريبية أكثر محدودة وصاخبة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من أجل تخفيف الطلب الكبير على مجموعات البيانات المشروح للمهام المختلفة، اعتمدت العديد من مجموعات بيانات معالجة اللغات الطبيعية الحديثة خطوط أنابيب آلية للبيانات القابلة للاستخدام السريع. ومع ذلك، فإن التدريب النموذجي مع مثل هذه البيانات يشكل تحديا لأ ن أهداف التحسين الشائعة ليست قوية لتسمية الضوضاء الناجمة عن عملية توليد التوضيحية. تم اقتراح العديد من الخسائر القوية للضوضاء وتقييمها في المهام في رؤية الكمبيوتر، لكنها تستخدم عموما فرط DataSet-WiseParamter واحد للتحكم في قوة مقاومة الضوضاء. يقترح هذا العمل أطر تدريبية جديدة على سبيل المثال لتغيير فرط بيانات DataSet واحد من مقاومة الضوضاء في مثل هذه الخسائر لتكون مثالا. توقع هؤلاء مثيل - Hyperparameters مقاومة للضوضاء من خلال تنبؤات ذات جودة عالية على مستوى التصنيف، والتي يتم تدريبها مع نماذج التصنيف الرئيسية. تظهر تجارب مجموعات بيانات NLP الصاخبة والفساد أن أطر التدريب على سبيل المثال المقترحة على سبيل المثال تساعد في زيادة متانة الضوضاء التي توفرها هذه الخسائر، وتعزيز استخدام الأطر والأطر الخسائر المرتبطة بها في نماذج NLP المدربة مع بيانات صاخبة.
تعد استخراج أجهزة القياسات الرائعة التي تلخص النقاط الرئيسية الوثيقة مهمة أساسية في معالجة اللغة الطبيعية.الأساليب الخاضعة للإشراف لاستخراج الصوت (KPE) تم تطويرها إلى حد كبير بناء على افتراض أن البيانات التدريبية مشروحة بالكامل.ومع ذلك، نظرا لصعوبة ع بوات مفاتيح الصوت، تعاني نماذج KPE بشدة من مشكلة غير مشروعة غير كاملة في العديد من السيناريوهات.تحقيقا لهذه الغاية، نقترح طريقة تدريب أكثر قوة تتعلم التخفيف من سوء الخضوع الذي جلبه خطوط الرعاية القصوى غير المسبقة.نقدم أخذ العينات السلبية لضبط فقدان التدريب، وإجراء تجارب تحت سيناريوهات مختلفة.تظهر الدراسات التجريبية حول مجموعات البيانات الاصطناعية ومجموعات البيانات المفتوحة أن طرازنا قوي للمشكلة المشروحة غير المكتملة وتجاوز الأساس المسبق.تجارب واسعة على خمسة مجموعات بيانات مجال علمي من المقاييس المختلفة توضح أن طرازنا تنافس مع الطريقة التي من بين الفن.
إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول م رة والتركيز على التنوع بين الجملة من خلال النظر في إعادة كتابة الجملة وإعادة ترتيبها. نقترح Corpg (توليد إعادة صياغة البحث عن النصوص الموجهة)، والتي تتمتع بالطرازات الرسم البياني Gru لتشفير الرسم البياني لعلاقة الاتساق والحصول على تمثيل مدرك التماسك لكل جملة، والتي يمكن استخدامها لإعادة ترتيب جمل الإدخال المتعددة (المحورة). نحن نقوم بإنشاء مجموعة بيانات صياغة على مستوى الوثيقة Pseudo لتدريب Corpg. تظهر نتائج التقييم التلقائي أن Corpg تفوقت على العديد من النماذج الأساسية القوية على درجات Bertscore وتنوعها. يوضح التقييم البشري أيضا أن نموذجنا يمكن أن يولد إعادة صياغة المستندات بمزيد من التنوع والحفاظ الدلالي.
نقترح التحكم في إعادة صياغة إعادة صياغة الصياغة من خلال الهياكل النحوية المستهدفة المختارة بعناية لتوليد المزيد من صياغة أعلى جودة أعلى وجودة.نموذجنا، Aesop، يرفع نموذج لغة مسبقين ويضيف عن عمد تم اختيار عنصر تحكم ترنيع عمدا عبر وحدة التحديد القائمة ع لى استرجاع لإنشاء صیر بطلاقة.تشير التجارب إلى أن إيسوب يحقق عروضا حديثة على الحفظ الدلالي والتشطيب النحوي في مجموعات بيانات قياسية مع السيطرة النحوية من الحقيقة الأرضية من النماذج المشروح البشرية.علاوة على ذلك، مع وحدة اختيار بناء الجملة المستهدفة المستندة إلى الاسترجاع، يولد AESOP إعادة صياغة مع صفات أفضل من أفضل النماذج الحالية باستخدام التقييم النحوي المستهدف البشري وفقا للتقييم البشري.نوضح فعاليات AESOP لتحسين نماذج تصنيف النماذج على الإقلاع النحوي عن طريق تكبير البيانات على مهام الغراء.
توضح هذه الورقة تقديم نظام FBK إلى مهمة ترجمة الكلام IWSLT 2021. شاركنا نموذجا مباشرا، وهو عبارة عن بنية قائمة على المحولات المدربة لتترجم بيانات صوت الكلام باللغة الإنجليزية إلى نصوص ألمانية. يتميز خط أنابيب التدريب بتقطير المعرفة وإجراءات ضبط ناعم من خطوتين. يتم تنفيذ كل من تقطير المعرفة والخطوة الأولى الدقيقة على البيانات الحقيقية والاصطناعية مجزأة يدويا، والذي يتم إنشاؤه في هذا الأخير بنظام MT المدرب على الشركة المتاحة. بشكل مختلف، يتم تنفيذ خطوة التشغيل الدقيقة الثانية في تجزئة عشوائية ل DataSet MUST-C V2 EN-DE. هدفها الرئيسي هو تقليل قطرات الأداء التي تحدث عندما يتم تقييم نموذج الترجمة الكلام على البيانات المجزأة يدويا (I.E. لنفس الغرض، يتم تطبيق إجراء تجزئة هجينة مخصص تمثل كلا المحتوى الصوتي (توقف) وطول القطاعات المنتجة على بيانات الاختبار قبل تمريرها إلى النظام. في وقت الاستنتاج، قارننا هذا الإجراء مع طريقة تجزئة خط الأساس استنادا إلى اكتشاف نشاط الصوت (VAD). تشير نتائجنا إلى فعالية النهج الهجين المقترح، الذي أظهره تخفيض الفجوة مع تجزئة يدوية من نقاط بلو 8.3 إلى 1.4.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا