ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن الكشف عن التراجع عن تحسين روبرتا المدرب مسبقا

Shuffled-token Detection for Refining Pre-trained RoBERTa

483   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حققت نماذج المحولات الحديثة أداء قويا على مجموعة متنوعة من مهام NLP.توظف العديد من هذه الأساليب مهام التدريب المرجعية للمجال لتدريب النماذج التي تسفر عن تمثيلات جماعية عالية للغاية يمكن أن تكون ذات صقل مهام محددة في المصب.نقترح تكرير نموذج NLP المدرب مسبقا باستخدام هدف الكشف عن الرموز المخلوطة.نستخدم نهج متسلسل من خلال بدء تشغيل نموذج روبرتا المدرب مسبقا وتدريبه باستخدام نهجنا.تطبيق استراتيجية خلط عشوائية على مستوى الكلمة، وجدنا أن نهجنا يتيح لنموذج روبرتا يحقق أداء أفضل في 4 من أصل 7 مهام الغراء.تشير نتائجنا إلى أن تعلم الكشف عن الرموز المنفصلة هو نهج واعد لمعرفة المزيد من تمثيلات الجملة متماسكة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نصف نظامنا المستخدمة في مهمة Semeval 2021 5: الكشف عن الأمور السامة.ينتهك نظامنا المقترح من مشكلة مهمة تصنيف رمزية.قمنا بتدريب نموذجنا للعثور على كلمات سامة وتسلسل يمتد إلى التنبؤ باليوفق السام في غضون جملة.نحن نطبات نماذج اللغة المدرب ة مسبقا (PLMS) لتحديد الكلمات السامة.بالنسبة للضبط الدقيق، كدغ طبقة التصنيف أعلى ميزات PLM لكل كلمة لتصنيفها إذا كانت سامة أم لا.يتم تدريب PLMS مسبقا على استخدام أهداف مختلفة وقد يختلف أدائها في مهام المصب.لذلك، قارن أداء بيرت، Electra، روبرتا، XLM-ROBERTA، T5، XLNET، و MPNET لتحديد المواقف السامة في غضون جملة.أفضل نظام أداء لدينا يستخدم روبرتا.أداء جيدا، وتحقيق درجة F1 من 0.6841 وتأمين مرتبة 16 على المتصدرين الرسميين.
تقدم هذه الورقة أحد أنظمة المحلول الفائزة الأعلى للمهمة 7 في Semeval2021، Hahackathon: الكشف عن الفكاهة والعموم. تنقسم هذه المسابقة إلى مهام اثنين، Task1 مع ثلاث مهام فرعية 1A، 1B، و 1C، و TASK2. الهدف من المهمة 1 هو التنبؤ إذا كان النص يعتبر روح الد عابة أم لا، وإذا كان الأمر نعم، فقم بالتنبؤ بمكام روح الدعابة وما إذا كان التصنيف فكاهة سيكون مثيرا للجدل. الهدف من المهمة 2 هو التنبؤ بكيفية اعتبار النص مسيئا للمستخدمين بشكل عام. تم تطوير حلنا باستخدام نموذج روبرتا المدرب مسبقا مع تقنيات الفرقة. تصف الورقة بنية نظام الحل المقدم مع التجارب وضبط فرط الضغط الذي أدى إلى هذا النظام القوي. في المرتبة النموذجية المرتبة الثالثة والرابعة من 50 فريقا في المهام 1C و 1A مع درجة F1 0.6270 و 0.9675 على التوالي. في الوقت نفسه، احتل النموذج واحدا من أفضل 10 نماذج في المهمة 1B والمهمة 2 مع درجات RMSE من 0.5446 و 0.4469 على التوالي.
في هذا العمل، نركز على سيناريو عددا أقل تحديا للكشف عن قلة الرصاص حيث يكون العديد من النوايا المحبوسة بشكل جيد ومشبه بشكل صحيح.نقدم مخطط اكتشاف عديدي بسيطة ولكنه فعالة من القلة عبر التدريب المسبق والضبط الناعم الصنع.على وجه التحديد، نقوم أولا بإجراء تدريبات مسبقة من الناحية التي تم إشرافها ذاتيا على مجموعات بيانات النية التي تم جمعها، والتي تتعلم ضمنيا التمييز بين الكلام المماثلة الدلوية دون استخدام أي ملصقات.ثم نقوم بعد ذلك بإجراء اكتشاف عهد القليل من الرصاص مع التعلم البسيط المشروع، والذي يسحب صراحة النطق من نفس النية أقرب ويغطي الكلام عبر النوايا المختلفة أبعد.تظهر النتائج التجريبية أن أسلوبنا المقترح يحقق أداء حديثة على ثلاثة مجموعات بيانات للكشف عن النوايا الصعبة تحت 5 لقطة و 10 لقطة.
تزرع البناتات المعدلة وراثياً في مناطق عديدة حول العامل ويزداد الاهتمام بزراعتها عاماً بعد أخر . بلغت المساحة المزروعة بالمحاصيل المعدلة وراثياً عام 2012 حوالي 170ز3 مليون هكتار موزعة على 29 دولة
الاستعارات في كل مكان في اللغة الطبيعية، ويتطلب الكشف عنها منطق سياقي حول ما إذا كان التعارض الدلالي موجود بالفعل.معظم العمل الحالي يعالج هذه المشكلة باستخدام نماذج السياق المدربة مسبقا.على الرغم من نجاحها، تتطلب هذه النماذج كمية كبيرة من البيانات ال مسمى ولا تستند إلى اللغة اللاحنة.في هذه الورقة، اقترحنا نموذجا متمربا مسبقا مسبقا (كيت) للكشف عن الاستعارة مع التعلم شبه الإشرافه.يستخدم نموذجنا أولا نموذجا مدربا مسبقا للحصول على تمثيل سياقي للكلمات المستهدفة وتوظف هدفا بسيطا لتعزيز المسافة المتزايدة بين الكلمات المستهدفة "الحواس الحرفية والجهزة المجازية القائمة على نظريات لغوية.علاوة على ذلك، نقترح استراتيجية بسيطة لجمع مثيلات مرشحة واسعة النطاق من كوربوس العام وتعميم النموذج عبر التدريب الذاتي.تبين تجارب واسعة أن كيت يحقق أداء أفضل ضد خطوط خطوط البيانات الحديثة على العديد من البيانات القياسية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا