ترغب بنشر مسار تعليمي؟ اضغط هنا

نمذجة اللغة السياقية على نطاق واسع للنرويجية

Large-Scale Contextualised Language Modelling for Norwegian

284   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم مبادرة Norlm المستمرة لدعم إنشاء واستخدام نماذج اللغة السياقية الكبيرة للغاية للنرويجية (ومن حيث المبدأ لغات الشمال الأخرى)، بما في ذلك بيئة برنامج جاهزة للاستخدام، بالإضافة إلى تقرير خبرة لإعداد البيانات والتدريبوبعدتقدم هذه الورقة أول نماذج لغوية واسعة النطاق للنرويجية، استنادا إلى كل من أطر ELMO و BERT.بالإضافة إلى تفصيل عملية التدريب، نقدم نتائج مرجعية للتناقض على مجموعة من مهام NLP للنرويجية.للحصول على خلفية إضافية والوصول إلى البيانات والنماذج والبرامج، يرجى الاطلاع على: http://norlm.nlpl.eu

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يوفر الإعلان السياقي للمعلنين الفرصة لاستهداف السياق الأكثر صلة بإعلاناتهم. يجعل مجموعة متنوعة كبيرة من الموضوعات المحتملة تحديا للغاية لجمع وثائق التدريب لبناء نموذج تصنيف إشراف أو يؤلف قواعد مكتوبة للخبراء في نظام تصنيف قائم على القواعد. علاوة على ذلك، في التصنيف الفائق الحبيبات، غالبا ما تتداخل فئات مختلفة أو تعايشها، مما يجعل من الصعب تصنيفها بدقة. في هذا العمل، نقترح Wiki2CAT، وهي طريقة لمعالجة تصنيف نصي كبير الحجم من خلال النقر على الرسم البياني للفئة Wikipedia. يتم تعيين الفئات في تصنيف IAB أولا إلى فئة العقد في الرسم البياني. ثم يتم نشر الملصق عبر الرسم البياني للحصول على قائمة بمستندات Wikipedia المسمى للحث على نصوص النصوص. تعد الطريقة مثالية لمشاكل التصنيف واسعة النطاق لأنها لا تتطلب أي مستند يدويا أو قواعد يدويا أو كلمات أساسية. يتم قياس الطريقة المقترحة مع مختلف خطوط الأساس القائمة على التعلم والكلمات الرئيسية وتجسد أداء تنافسي على مجموعات البيانات المتوفرة للجمهور ومجموعة بيانات جديدة تحتوي على أكثر من 300 فئة واحدة من الفئات الجميلة.
يوضح هذا العمل عملية تطوير بنية تعلم الآلة للاستدلال الذي يمكن أن يتجاوز حجم كبير من الطلبات.استخدمنا نموذج بيرت الذي كان يركض بشكل جيد لتحليل العاطفة، وإرجاع توزيع احتمالية للعواطف بالنظر إلى فقرة.تم نشر النموذج كخدمة GRPC على KUBERNNTES.تم استخدام Apache Spark لأداء الاستدلال على دفعات عن طريق استدعاء الخدمة.واجهنا بعض تحديات الأداء والتزامن وإنشاء حلول لتحقيق وقت التشغيل بشكل أسرع.بدءا من 200 طلب استنتاج ناجح في الدقيقة، تمكنا من تحقيق ما يصل إلى 18 ألف طلب ناجح في الدقيقة مع نفس تخصيص الموارد الوظيفية الدفاعية.نتيجة لذلك، نجحنا في تخزين احتمالات العاطفة لمدة 95 مليون فقرات في غضون 96 ساعة.
توضح هذه الورقة نهجنا للمهمة المشتركة على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع في المؤتمر السادس حول الترجمة الآلية (WMT-21).في هذا العمل، نهدف إلى بناء نظام ترجمة متعددة اللغات واحدا مع فرضية أن تمثيل عالمي عبر اللغة يؤدي إلى أداء ترجمة متع ددة اللغات بشكل أفضل.نحن نقدم استكشاف أساليب الترجمة الخلفي المختلفة من الترجمة الثنائية إلى الترجمة متعددة اللغات.يتم الحصول على أداء أفضل من خلال طريقة أخذ العينات المقيدة، والتي تختلف عن اكتشاف الترجمة الثنائية الثدية.علاوة على ذلك، نستكشف أيضا تأثير المفردات ومقدار البيانات الاصطناعية.والمثير للدهشة أن الحجم الأصغر من المفردات أداء أفضل، وتقدم بيانات اللغة الإنجليزية النائية واسعة النطاق تحسنا متواضعا.لقد أرسلنا إلى كل من المهام الصغيرة وتحقيق المركز الثاني.
توضح هذه الورقة نظام الترجمة متعددة الاستخدامات على نطاق واسع ل WMT 2021. نشارك في المسار الصغير 2 في خمسة لغات جنوب شرق آسيا، والثلاثين الاتجاهات: الجاوية، الإندونيسية، الملايو، التاغالوغية، التاميل، الإنجليزية.نحن نستخدم أساسا إلى الأمام / الترجمة إلى الوراء، واختيار بيانات داخل المجال، وقطاع المعرفة، والضبط الجماعي التدريجي من الطراز المدرب مسبقا فلوريس 101.نجد أن الترجمة إلى الأمام / الخلفي يحسن بشكل كبير من نتائج الترجمة، واختيار البيانات والضبط الجمنيات التدريجية فعالة بشكل خاص أثناء مجال التكيف، في حين أن تقطير المعرفة يجلب تحسين أداء طفيف.أيضا، يستخدم متوسط المتوسط لتحسين أداء الترجمة بناء على هذه الأنظمة.يحقق نظامنا النهائي درجة بلو متوسط قدره 28.89 عبر ثلاثين اتجاهين في مجموعة الاختبار.
مشكلة استرجاع المستندات المستندة إلى المستندات المستندة إلى تضمينها هي موضوع ساخن في مجال استرجاع المعلومات (IR).بالنظر إلى أن نماذج اللغة المدربة مسبقا مثل بيرت حققت نجاحا كبيرا في مجموعة واسعة من مهام NLP، فإننا نقدم نموذجا رباعية لاسترجاع فعال وفع ال في هذه الورقة.على عكس معظم طرازات استرجاع أسلوب بيرت الموجود، والتي تركز فقط على مرحلة الترتيب في أنظمة الاسترجاع، فإن نموذجنا يجعل تحسينات كبيرة في مرحلة الاسترجاع وتزود المسافات بين الحالات السلبية السلبية والسلبية البسيطة للحصول على تضمين أفضل.توضح النتائج التجريبية أن لدينا QuadrouPletbert تحقق نتائج أحدث النتائج في مهام الاسترجاع على نطاق واسع القائم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا