ترغب بنشر مسار تعليمي؟ اضغط هنا

التحقيق نماذج لغة متعددة اللغات للخطوط

Probing Multilingual Language Models for Discourse

285   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبحت نماذج اللغة متعددة اللغات المدربة مسبقا كتلة مبنى مهمة في معالجة اللغة الطبيعية متعددة اللغات.في الورقة الحالية، نحقق في مجموعة من هذه النماذج لمعرفة مدى نقل المعرفة على مستوى الخطاب عبر اللغات.يتم ذلك بتقييم منهجي على مجموعة أوسع من مهام مستوى الخطاب مما تم تجميعه مسبقا.نجد أن عائلة XLM-Roberta من نماذج تظهر باستمرار أفضل أداء، من خلال نماذج أحادية جيدة جيدة في وقت واحد ومهينة القليل نسبيا في إعداد طلقة صفرية.تشير نتائجنا أيضا إلى أن التقطير النموذجي قد تؤذي قدرة النقل عبر اللغات من تمثيل الجملة، في حين أن الاختلاف اللغوي على الأكثر تأثير متواضع.نأمل أن يكون جناح اختبارنا، الذي يغطي 5 مهام مع ما مجموعه 22 لغة في 10 أسر متميزة، بمثابة منصة تقييم مفيدة للأداء متعدد اللغات في مستوى الجملة وما بعدها.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة مسبقا، 4 لغات، و 7 مهام قيد الخطاب، والعثور على بارت ليكون بشكل عام أفضل نموذج في التقاط الخطاب - - ولكن فقط في تشفيرها، مع بيرت أداء بشكل مفاجئ نموذج الأساس.عبر النماذج المختلفة، هناك اختلافات كبيرة في أفضل طبقات في التقاط معلومات خطاب، والتفاوتات الكبيرة بين النماذج.
نحن التحقيق في نماذج لغة المحولات المدربة مسبقا لسد الاستدلال.نقوم أولا بالتحقيق في رؤوس الاهتمام الفردي في بيرت ومراقبة أن رؤساء الاهتمام في طبقات أعلى تركز بشكل بارز على سد العلاقات داخل المقارنة مع الطبقات المنخفضة والمتوسطة، وكذلك عدد قليل من رؤس اء اهتمامات محددة يركزون باستمرار على سد.الأهم من ذلك، نحن نفكر في نماذج اللغة ككل في نهجنا الثاني حيث يتم صياغة دقة سد العسرة كمهمة تتنبئة رمزية مثيرة للمثنين (من اختبار Cloze).تنتج صياغتنا نتائج متفائلة دون أي ضبط جيد، مما يشير إلى أن نماذج اللغة المدربة مسبقا تلتقط بشكل كبير في سد الاستدلال.يوضح تحقيقنا الإضافي أن المسافة بين المداعين - السابقة وسوء السياق المقدمة إلى النماذج اللغوية تلعب دورا مهما في الاستدلال.
أصبحت نماذج اللغة متعددة اللغات المحددة مسبقا أداة شائعة في تحويل قدرات NLP إلى لغات الموارد المنخفضة، وغالبا مع التعديلات.في هذا العمل، ندرس أداء، قابلية القابلية للضغط، والتفاعل بين اثنين من هذه التكيفات: تكبير المفردات وتروية النصوص.تقييماتنا حول العلامات بين الكلام، تحليل التبعية الشامل، والاعتراف الكياري المسمى في تسعة لغات متنوعة منخفضة الموارد تدعم صلاحية هذه الأساليب مع رفع أسئلة جديدة حول كيفية تكييف النماذج متعددة اللغات على النحو الأمثل إلى إعدادات الموارد المنخفضة.
نقوم بتحليل ما إذا كانت نماذج اللغة الكبيرة قادرة على التنبؤ بأنماط سلوك القراءة البشرية.قارنا أداء نماذج محولات محول خاصة باللغات ومتعددة اللغات للتنبؤ بتدابير وقت القراءة التي تعكس معالجة الجملة البشرية الطبيعية على النصوص الهولندية والإنجليزية وال ألمانية والروسية.ينتج عن هذا نماذج دقيقة من سلوك القراءة البشرية، والذي يشير إلى أن نماذج المحولات ترميز ضمنيا أهمية نسبية في اللغة بطريقة مماثلة لآليات المعالجة البشرية.نجد أن نماذج بيرت و XLM تتنبأ بنجاح مجموعة من ميزات تتبع العين.في سلسلة من التجارب، نحلل القدرات عبر المجال واللغات الشاملة لهذه النماذج وإظهار كيف تعكس معالجة الجملة البشرية.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا