ترغب بنشر مسار تعليمي؟ اضغط هنا

هل يمكن طرازات اللغة القائمة على الأحرف تحسين أداء المهام المصب في سيناريوهات اللغة المنخفضة واللغة الصاخبة؟

Can Character-based Language Models Improve Downstream Task Performances In Low-Resource And Noisy Language Scenarios?

209   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم إثبات التحسينات الأخيرة المثيرة للإعجاب في NLP، على أساس نجاح نماذج اللغة العصبية السياقية، في معظمها على معظم زوجين من اللغات عالية الموارد. بناء لغة البناء، وبشكل أعم، لا تزال أنظمة NLP للغات غير الموحدة والموارد منخفضة مهمة صعبة. في هذا العمل، نحن fo- cus على اللغة العربية العامية من الشمال الأفريقي العربية المكتوبة باستخدام امتداد من البرنامج النصي اللاتيني، يسمى Narabizi، في الغالب على وسائل التواصل الاجتماعي والرسائل. في هذا السيناريو المنخفض للموارد مع عرض البيانات مستوى كبير من التباين، نقوم بمقارنة أداء المصب لنموذج لغة قائمة على الطابع على وضع علامات جزء من الكلام والاعتماد على نماذج أحادية اللغات وغير اللغوية. نظرا لأن نموذجا مقرا له على الطابع المدرب على جمل 99 ألفا فقط من Narabizi ويتم تغريمه على خرق صغير من هذه اللغة يؤدي إلى أداء قريبة من تلك التي تم الحصول عليها مع نفس الهندسة المعمارية المدربة مسبقا على نماذج كبيرة متعددة اللغات وأنتجة. تؤكد هذه النتائج على مجموعة بيانات أكبر بكثير من المحتوى الناتج عن المستخدم الفرنسي الصاخب، نجح بأن هذه النماذج اللغوية القائمة على الأحرف يمكن أن تكون أصول ل NLP في مجموعة التباين المنخفضة واللغة العالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت الشبكات العصبية العميقة ونماذج اللغة الضخمة في كل شيء في تطبيقات اللغة الطبيعية. نظرا لأنهم معروفون بطلب كميات كبيرة من بيانات التدريب، فهناك مجموعة متنامية من العمل لتحسين الأداء في إعدادات الموارد المنخفضة. بدافع من التغييرات الأساسية الأخيرة نحو النماذج العصبية والطائرة المسبقة والتدريب الشائعة النغمات الجميلة، نقوم بمسح نهج واعدة لمعالجة اللغات الطبيعية المنخفضة الموارد. بعد مناقشة حول الأبعاد المختلفة لتوفر البيانات، نقدم نظرة عامة منظم على الطرق التي تمكن التعلم عند انتشار البيانات التدريبية. يشتمل ذلك على آليات لإنشاء بيانات إضافية مصممة مثل تكبير البيانات والإشراف البعيد بالإضافة إلى إعدادات التعلم التي تقلل من الحاجة إلى الإشراف المستهدف. الهدف من المسح لدينا هو شرح كيف تختلف هذه الطرق في متطلباتهم كضمين لهم ضروري لاختيار تقنية مناسبة لإعداد محدد من الموارد منخفضة. هناك جوانب رئيسية أخرى لهذا العمل هي تسليط الضوء على القضايا المفتوحة وإطلاع الإرشادات الواعدة للبحث في المستقبل.
حققت الترجمة الآلية العصبية متعددة اللغات أداء ملحوظا من خلال تدريب نموذج ترجمة واحدة لغات متعددة.تصف هذه الورقة التقديم الخاص بنا (معرف الفريق: CFILT-IITB) لمكتب Multiindicmt: مهمة متعددة اللغات اللغوية في WAT 2021. نقوم بتدريب أنظمة NMT متعددة اللغ ات من خلال تقاسم المعلمات التشفير والكشف مع تضمين اللغة المرتبطة بكل رمزية في كل من التشفير والكشف في كل من التشفير والكشف.علاوة على ذلك، نوضح استخدام الترجمة (تحويل البرنامج النصي) لغارات الجهاز في تقليل الفجوة المعجمية لتدريب نظام NMT متعدد اللغات.علاوة على ذلك، نوضح التحسن في الأداء من خلال تدريب نظام NMT متعدد اللغات باستخدام لغات الأسرة نفسها، أي لغة ذات صلة.
تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه رت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.
التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
تثبت نماذج اللغة القائمة على المحولات (LMS) على مجموعات نصية كبيرة تخزين ثروة من المعرفة الدلالية. ومع ذلك، 1) أنها ليست فعالة كوسميز الجملة عند استخدامها خارج الرف، و 2) وبالتالي لا تتأخر عادة وراء إعادة احتجازها بشكل تقريبي (E.G.، عبر اختيار الاستج ابة) حول مهام المحادثة مثل الكشف عن النوايا (ID). في هذا العمل، نقترح نقايد، وهو إجراء بسيط وفعالين من مرحلتين يقومون بتحويل أي ما قبل الاحتراق إلى تشفير محادثة عالمية (بعد المرحلة الأولى - Convfit-Conffit-ING) وتشمير الجملة التخصصية للمهام (بعد المرحلة 2). نوضح أن 1) محاكاة محادثة بالكامل غير مطلوبة، وأن LMS يمكن تحويل LMS بسرعة إلى ترميزات محادثة فعالة بكميات أصغر بكثير من البيانات غير المخلفات؛ 2) يمكن أن تكون LMS محددة ضبطها بشكل جيد في تشفير الجملة المتخصصة في المهام، وتحسينها للحصول على الدلالات الفاخرة من مهمة معينة. وبالتالي، تسمح تشفير الجملة المتخصصة بمعرف المعرف باعتباره مهمة تشابه دلالية بسيطة تقوم على استرجاع الجيران القابل للتفسير. نحن نقوم بالتحقق من صحة متانة وإمدادات الإطار النقدي مع مثل هذا الاستدلال القائم على التشابه على مجموعات تقييم الهوية القياسية: يحقق LMS Convfit-ed أداء معرف أحدث في المجال، مع مكاسب معينة في الأكثر تحديا، قليلة STUPS -SHOT.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا