ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل متعدد اللغات بشكل كبير من تبادل اللغة في الفضاء التضمين المشترك

A Massively Multilingual Analysis of Cross-linguality in Shared Embedding Space

304   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في طرازات اللغة عبر اللغات، تعيش تمثيلات للعديد من اللغات المختلفة في نفس المساحة. هنا، نحقق في العوامل اللغوية وغير اللغوية التي تؤثر على محاذاة على مستوى الجملة في نماذج اللغة المحددة مسبقا بين 101 لغة و 5،050 زوج لغة. باستخدام LASTE BERT-القائم على BERT و LASER المستندة إلى BILSTM كنماذجنا، والكتاب المقدس كجورتنا، نحسب مقياسا يستند إلى المهمة لمحاذاة عبر اللغات في شكل أداء استرجاع BiteXT، بالإضافة إلى أربعة تدابير جوهرية لمساحة المتجهات المحاذاة والتزييف. ثم ندرس مجموعة من الميزات اللغوية واللغوية واللغوية والمتعلقة التدريبية كتنبؤ محتمل من مقاييس المحاذاة. تظهر نتائج تحليلاتنا أن اتفاقية ترتيب الكلمات والاتفاق في التعقيد المورفولوجي هي اثنتان من أقوى المتنبئ اللغوي للقلق. نلاحظ أيضا البيانات التدريبية في الأسرة كمؤشر أقوى من بيانات التدريب المحددة باللغة في جميع المجالات. نحن نتحقق من بعض النتائج اللغوية لدينا من خلال النظر في تأثير تجزئة مورفولوجية على محاذاة اللغة الإنجليزية - غير الأجنبية، بالإضافة إلى دراسة تأثير اتفاقية ترتيب الكلمات على ISomorphism ل 66 أزواج لغة الطلقة الصفرية من كائن مختلف. نحن نجعل البيانات والرمز تجاربنا متاحة للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالنسبة للأطفال، أدى النظام المدرب على جثة كبيرة من مكبرات الصوت الكبار أسوأ من النظام المدربين على جثة أصغر بكثير من خطاب الأطفال.هذا بسبب عدم تطابق الصوت بين التدريب واختبار البيانات.لالتقاط المزيد من التقلبات الصوتية، قامنا بتدريب نظام مشترك مع بي انات مختلطة من البالغين والأطفال.ينجذب النظام المشترك إلى أفضل أغاني للأطفال دون تدهور للبالغين.وبالتالي، فإن النظام الفردي المدرب مع البيانات المختلطة ينطبق على التحقق من السماعات لكل من البالغين والأطفال.
إن محول نقل النص إلى النص الأخير "'(T5) عند الاستفادة من تنسيق نصي إلى نص موحد ومقياس لتحقيق النتائج الحديثة على مجموعة واسعة من مهام NLP باللغة الإنجليزية.في هذه الورقة، نقدم MT5، وهو متغير متعدد اللغات من T5 الذي تم تدريبه مسبقا على مجموعة بيانات ج ديدة تستند إلى الزواحف تغطي 101 لغات.نحن تفصل على التصميم والتدريب المعدل ل MT5 وإظهار أدائه من أحدث المعايير متعددة اللغات.وصف أيضا تقنية بسيطة لمنع الترجمة العرضية "في إعداد الطلقة الصفرية، حيث يختار طراز عام (جزئيا) تنبؤه بلغة خاطئة.جميع الكود ونقاط التفتيش النموذجية المستخدمة في هذا العمل متاحة للجمهور.
التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل غات المختلفة وتحويل التعليمات البرمجية. منذ عمل Han و Baldwin (2011) منذ عقد من الزمان، اجتذبت التطبيع المعجمي الانتباه باللغة الإنجليزية وعلا بلغات أخرى. ومع ذلك، هناك نقص في وجود معيار مشترك للمقارنة بين النظم عبر اللغات مع إعداد بيانات وتقييم متجانسة. تحدد المهمة المشتركة متعددة الأكسجين لملء هذه الفجوة. نحن نقدم أكبر مؤشر تطبيع متعدد اللغات المتوفرة للجمهور بما في ذلك 13 متغيرات لغة. نقترح إعداد تقييم متجانس مع كل من التقييم الجوهري والخارجي. كما التقييم الخارجي، نستخدم تحليل التبعية ووضع علامات على جزء من مقاييس التقييم القضائية (A-LAS، A-UAS، و A-POS) لحساب التناقضات المحاذاة. جذبت المهمة المشتركة التي استضافتها في W-Nut 2021 9 مشاركا و 18 رسالة. تظهر النتائج أن أنظمة التطبيع العصبي تتفوق على النظام السابق على النظام السابق بهامش كبير. يتأثر أداء وضع العلامات على وضع العلامات في المصب وعلامات جزء من الكلام بشكل إيجابي ولكن بدرجات متفاوتة، مع تحسينات تصل إلى 1.72 A-LAS و 0.85 A-UAS و 1.54 A-POS للنظام الفائز.
نقدم أول كائن مشروح للتحليل متعدد اللغات من البنات غير العادلة المحتملة في شروط الخدمة عبر الإنترنت.تشتمل مجموعة البيانات على ما مجموعه 100 عقد، تم الحصول عليها من 25 وثيقة مشروح في أربع لغات مختلفة: الإنجليزية والألمانية والإيطالية والبولندية.لكل عق د، يتم تفاح البنود غير العادلة للمستهلك، لتسع فئات غير ظلم مختلفة.نظهر كيف يمكن استخدام تقنية الإسقاط التوضيحي بسيطة ولكنها فعالة استنادا إلى مدماج الجملة لإجراء التعليقات التوضيحية تلقائيا عبر اللغات.
دراسات مسبقة مجردة في النمذجة اللغوية متعددة اللغات (على سبيل المثال، كوتريل وآخرون، 2018؛ Mielke et al.، 2019) لا أوافق على ما إذا كانت مورفولوجيا الانهيار أو لا تجعل اللغات أكثر صعوبة في النموذج.نحاول حل الخلاف وتوسيع تلك الدراسات.نقوم بتجميع أكبر من كائن أكبر من 145 ترجمة للكتاب المقدس في 92 لغة وعدد أكبر من الميزات النموذجية .1 نقوم بملء البيانات النموذجية المفقودة لعدة لغات والنظر في تدابير تعتمد على Corpus من التعقيد المورفولوجي بالإضافة إلى الميزات النموذجية التي يتم إنتاجها من الخبراء.نجد أن العديد من التدابير المورفولوجية مرتبطة بشكل كبير بزيادة مفاجأة عندما يتم تدريب نماذج LSTM مع بيانات مجزأة BPE.نحقق أيضا استراتيجيات تجزئة الكلمات الفرعية ذات الدوافع اللغوية مثل مورفيسور ومحولات محولات الحالة المحدودة (FSTS) وتجد أن هذه استراتيجيات التجزئة تسفر عن أداء أفضل وتقليل تأثير مورفولوجيا اللغة على نمذجة اللغة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا