ترغب بنشر مسار تعليمي؟ اضغط هنا

التنبؤ بنجاح تكيف المجال في تشابه النص

Predicting the Success of Domain Adaptation in Text Similarity

216   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

طرق التعلم، وخاصة تكيف المجال، تساعد في استغلال البيانات المسمى في مجال واحد لتحسين أداء مهمة معينة في مجال آخر.ومع ذلك، لا يزال من غير الواضح العوامل التي تؤثر على نجاح تكيف المجال.نماذج الورق هذه النجاح ونجاح واختيار المجالات المصدر الأكثر ملاءمة بين العديد من المرشحين في تشابه النص.نستخدم معلومات المجال الوصفية ومقاييس التشابه عبر المجال كيزات تنبؤية.في الغالب إيجابية، تشير النتائج أيضا إلى بعض المجالات حيث كان من الصعب التنبؤ بنجاح التكيف.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
في هذه الورقة، نقدم نهجا جديدا لتكييف المجال في الجهاز العصبي الذي يهدف إلى تحسين جودة Thetranslation على نطاق جديد. إضافة مجالات جديدة هي مهمة عالية تحديا لبيانات الترجمة الآلية العصبية، يصبح أكثر عبادة منتشرةالمجالات الفنية مثل Chem-Istry والذكاء ا لاصطناعي بسبب مصطلحات Spe-Sicific، إلخ. نقترح أسلوب الترجمة الخلفي العجول Domainspecific والتي تنوع بيانات الأحادية المتوفرة والبيانات الاصطناعية العامة بطريقة مختلفة. هذا النهج يستخدم خارج الكلمات. النهجعام جدا ويمكن أن تقوم بالياف بأي زوج لغة لأي مجال.نقوم بإجراء تجاربنا على الكنديمان والذكاء الاصطناعي) من أجل اللغة الهندية والتيلجو في كل من direc-tions.وقد لوحظ أن استخدام البيانات الاصطناعية الاستخدام التي تم إنشاؤها بواسطة proposedalgorithm يحسن درجات بلو بشكل كبير.
أظهر العمل الحديث أن نماذج لغة التدريب المسبق التدريبية يمكن أن تعزز الأداء عند التكيف إلى مجال جديد. ومع ذلك، فإن التكاليف المرتبطة بالتدريب المسبق رفع سؤال مهم: بالنظر إلى ميزانية ثابتة، ما هي الخطوات التي يجب أن يستغرق ممارس NLP لتعظيم الأداء؟ في هذه الورقة، نقوم بدراسة تكيف المجال بموجب قيود الموازنة، ونهجها كمشكلة اختيار العملاء بين شروح البيانات والتدريب المسبق. على وجه التحديد، نقيس تكلفة التوضيحية لثلاث مجموعات بيانات نصية إجرائية وتكلفة ما قبل التدريب من ثلاث نماذج لغوية داخل المجال. ثم نقيم فائدة مجموعات مختلفة من التدريب المسبق والتشريح بالبيانات بموجب قيود ميزانية متفاوتة لتقييم الاستراتيجية التي تعمل بشكل أفضل. نجد أنه بالنسبة للميزانيات الصغيرة، فإن إنفاق جميع الأموال على التوضيحية يؤدي إلى أفضل أداء؛ بمجرد أن تصبح الميزانية كبيرة بما فيه الكفاية، يعمل مزيج من شرح البيانات والتدريب المسبق في المجال على النحو الأمثل. لذلك نقترح أن تكون شروط التعريف الخاصة بالبيانات الخاصة بمهارات العمل يجب أن تكون جزءا من استراتيجية اقتصادية عند تكييف نموذج NLP إلى مجال جديد.
تقدم هذه الورقة المهمة المشتركة تتكيف المجال المجانية للمصدر التي عقدت داخل Semeval-2021.كان الهدف من المهمة هو استكشاف تكيف نماذج تعليم الآلات في مواجهة قيود مشاركة البيانات.على وجه التحديد، نعتبر السيناريو حيث توجد التعليقات التوضيحية للنطاق ولكن ل ا يمكن تقاسمها.بدلا من ذلك، يتم تزويد المشاركين مع النماذج المدربة على هذه البيانات (المصدر).يتلقى المشاركون أيضا بعض البيانات المسمى من مجال جديد (تطوير) لاستكشاف خوارزميات تكيف المجال.ثم يتم اختبار المشاركين على البيانات التي تمثل مجال جديد (الهدف).استكشفنا هذا السيناريو مع اثنين من المهام الدلالية المختلفة: الكشف عن النفي (مهمة تصنيف النص) والتعرف على تعبير الوقت (مهمة وضع علامة تسلسل).
في هذه الورقة، نقترح نموذجا بسيطا للتكيف عن نطاق القليل من الرصاص لفهم القراءة. نحدد أولا هيكل الشبكة الفرعية اليانصيب ضمن نموذج مجال المصدر المستندة إلى المحولات عبر تشذيب درجة تدريجية. ثم، نحن فقط نغتنم الشبكة الفرعية اليانصيب، جزء صغير من المعلمات بأكملها، على بيانات المجال المستهدحة المشروح للتكيف. للحصول على المزيد من البرامج الفرعية القابلة للتكيف، نقدم إسناد ذوي الاهتمام الذاتي لوزن المعلمات، بما يتجاوز ببساطة تقليم أصغر معلمات الحجم، والذي يمكن أن ينظر إليه على أنه يجمع بين تشذيب الهيكل المنظم وتشذيم درجة غذائية بهدوء. تظهر النتائج التجريبية أن أسلوبنا تتفوق على التكيف النموذج الكامل للتوحيد على أربعة مجالات من خمسة مجالات عندما يكون فقط كمية صغيرة من البيانات المشروحة المتاحة للتكيف. علاوة على ذلك، فإن إدخال إيلاء الإهمال الذاتي الاحتياطيات معلمات أكثر لرؤوس الانتباه مهم في الشبكة الفرعية اليانصيب ويحسن أداء نموذج المجال الهدف. تكشف التحليلات الإضافية الخاصة بنا أنه، إلى جانب استغلال عدد أقل من المعلمات، فإن اختيار الشبكة الفرعية أمر بالغ الأهمية للفعالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا