ترغب بنشر مسار تعليمي؟ اضغط هنا

مجموعة البيانات والنماذج الملوثة لغات متعددة، من الكبير إلى المهددة بالانقراض

Neural Morphology Dataset and Models for Multiple Languages, from the Large to the Endangered

122   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نربط النماذج العصبية للتحليل المورفولوجي والجيل والليمون للغات الغنية بالمورفولوجيا.نقدم طريقة لاستخراج كمية كبيرة من البيانات التدريبية تلقائيا من FSTS لمدة 22 لغة، منها 17 مليار بالانقراض.تتبع النماذج العصبية نفس التشريع مثل FSTS من أجل تحقيقها لأنظمة الاحتياطية مع FSTS.تم إصدار التعليمات البرمجية المصدر والنماذج والشطونات على Zenodo.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة تقديمنا إلى المهمة المشتركة Semeval-2021 بشأن تنبؤ التعقيد المعجمي.اتصلنا بمثابة مشكلة في الانحدار وتقديم مجموعة فرقة تجمع بين أربعة أنظمة، واحدة مقرها ومميزة مقرها وثلاثة عصبي مع التعلم الدقيق والتردد المسبق والتعلم متعدد المهام، وتحق يق درجات بيرسون من 0.8264 و 0.7556 في مجموعات المحاكمة والاختبارعلى التوالي (المهمة الفرعية 1).ونحن نقدم أيضا تحليلنا للنتائج ومناقشة نتائجنا.
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب ة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.
تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المست خدمين الديموغرافية مثل اللغة أو الموضوع أو الجنس، والتي تؤثر على إنشاء نص إلى حد كبير. وقد ادعى تدريب الخصم لتخفيف هذه المشكلة، لكن التقييم الشامل مفقود. في هذه الورقة، نقوم بتجربة تصنيف النص للسمات المرتبطة بموضوع وثائق ومؤلف الجنس، باستخدام جثة متوازية متعددة اللغات متعددة اللغات من نصوص TED TALK. النتائج التي توصلنا إليها هي: (أ) يكون المصنفين الفرديين للموضوع والجنس المؤلف متحيز بالفعل؛ (ب) ديوان مع أعمال التدريب المشددي للموضوع، ولكنها تنهار المؤلف الجنس؛ (ج) تختلف نتائج ديوان الجنسين عبر اللغات. نفسر النتيجة من حيث تداخل مساحة الميزة، وتسليط الضوء على دور تحقيق السطح اللغوي للفصول المستهدفة.
أصبح التحويل التعلم بناء على نماذج لغة المحترفين على كمية كبيرة من البيانات الخام نموذجا جديدا للوصول إلى الأداء الحديث في NLP. ومع ذلك، لا يزال من غير الواضح كيف ينبغي تطبيق هذا النهج لغات غير مرئية غير مشمولة بأي نموذج لغوي متعدد اللغات واسعة ناتجا ، والذي يتم توفير كمية صغيرة فقط من البيانات الخام فقط. في هذا العمل، من خلال مقارنة النماذج متعددة اللغات وأنتغوية، نوضح أن هذه النماذج تتصرف بطرق متعددة على اللغات غير المرئية. تستفيد بعض اللغات بشكل كبير من تعلم التعلم والتصرف بالمثل إلى لغات موارد عالية مرتبطة ارتباطا وثيقا في حين أن الآخرين على ما يبدو لا. التركيز على الأخير، نظرا لأن هذا الفشل في النقل يرتبط إلى حد كبير بتأثير البرنامج النصي المستخدم لكتابة هذه اللغات. نظهر أن ترجمة هذه اللغات تعمل بشكل كبير على تحسين إمكانات نماذج اللغة متعددة اللغات على نطاق واسع في مهام المصب. توفر هذه النتيجة اتجاها واعدا نحو جعل هذه النماذج متعددة اللغات بشكل كبير مفيدة لمجموعة جديدة من اللغات غير المرئية.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا