ترغب بنشر مسار تعليمي؟ اضغط هنا

ن نماذج N-Gram والعملات العصبية لتحديد اللغة الأورالية: NRC في Vardial 2021

N-gram and Neural Models for Uralic Language Identification: NRC at VarDial 2021

382   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وصف النظم التي طورها مجلس البحوث القومي كندا للمهمة المشتركة لتحديد اللغة اليوراليك في حملة التقييم الفاديم 2021.قمنا بتقييم طريقتين مختلفتين لهذه المهمة: مصنف احتمالية استغلال حرف 5 غرامات فقط كميزات، وشبكة عصبية قائمة على الطابع مدربة مسبقا من خلال الإشراف الذاتي، ثم ضبطها على مهمة تحديد اللغة.تحولت الطريقة السابقة إلى أداء أفضل، مما يؤدي إلى الشك على فائدة أساليب التعلم العميق لتحديد اللغة، حيث لم يتمكنوا بعد بشكل مقنع وتفوقوا باستمرار على خوارزميات التصنيف أكثر بساطة وأقل تكلفة استغلال ميزات N-Gram.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطري قة اخفاء هذه المتخلل تهمل طرازات التبعيات داخل الإتصال والمعلومات المشتركة بين المعلومات اللغوية المحبوبة الخشنة. كديل، نقترح Ernie-Gram، وهي طريقة إخفاء N-Gram بشكل صريح لتعزيز دمج المعلومات المحبوسة الخشنة في ما قبل التدريب. في Ernie-Gram، N-Grams ملثمين وتوقعت مباشرة باستخدام هويات N-Gram واضحة بدلا من تسلسلات متجاورة من الرموز N. علاوة على ذلك، توظف Ernie-Gram نموذج مولد للعينة من هويات N-Gram المعقولة كقنعة اختيارية N-Gram وتوقعها في كل من الأخلاق الخشنة والحبوب الدقيقة لتمكين تنبؤات N-Gram الشاملة ونمذجة العلاقة. نحن نسترجع تدريبات Ernie-Gram على النصوص باللغة الإنجليزية والصينية ونغمة الجميلة في 19 مهام المصب. تظهر النتائج التجريبية أن Ernie-Gram يتفوق على نماذج مسبقة التدريب السابقة مثل XLNet و Roberta بهامش كبير، وتحقق نتائج قابلة للمقارنة مع الطرق الحديثة. تم إصدار رموز المصدر والنماذج المدربة مسبقا في https://github.com/paddlepaddle/ernie.
نحن نصف أنظمة الترجمة الآلية العصبية لدينا المهمة المشتركة 2021 على MT غير الخاضعة للإشراف على الموارد الخلفية والمنخفضة للغاية، والترجمة بين السوربيين العليا والألمانية (الموارد المنخفضة) وبين السوربيان السفلي والألمانية (غير المعدل).أنظمة أدرجت تصف ية البيانات، والخلفية، والانسقاط BPE، والكثير، ونقل التعلم من لغات عالية (إيه) -ReSource.كما تقاس بواسطة مقاييس أوتوماتيكية، أظهرت أنظمتنا أداءا قويا، ووضعها باستمرار أولا أو مرتبط لأول مرة عبر معظم مؤشرات المقاييس والترجمة.
حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في هذه الدراسة، نقوم بتصميم وتنفيذ أنواع مختلفة من أساليب الاضطرابات على مستوى الأحرف ومستوى الكلمة لمحاكاة السيناريوهات الواقعية التي قد تكون فيها نصوص الإدخال صاخبة قليلا أو مختلفة عن توزيع البيانات التي تم تدريبها على أنظمة NLP عليها. إجراء تجارب شاملة على مهام NLP المختلفة، فإننا نبحث في قدرة نماذج اللغة العالية الأداء مثل Bert و Xlnet و Roberta و ELMO في التعامل مع أنواع مختلفة من اضطرابات الإدخال. تشير النتائج إلى أن نماذج اللغة حساسة للاضطرابات الإدخال ويمكن أن تنخفض أدائها حتى عند تقديم تغييرات صغيرة. نسلط الضوء على هذه النماذج تحتاج إلى مزيد من المحسن وأن المعايير الحالية لا تعكس متانة النموذج جيدا. نقول أن التقييمات بشأن المدخلات المضطربة يجب أن تكمل المعايير المستخدمة بشكل روتيني من أجل تحقيق فهم أكثر واقعية لمتانة أنظمة NLP.
تستخدم أساليب الرالف على نطاق واسع لتفسير تنبؤات الشبكة العصبية، ولكن غالبا ما تعارض أساليب أنواع مختلفة من الأساليب المختلفة حتى في تفسيرات نفس التنبؤ الذي أدلى به نفس النموذج. في هذه الحالات، كيف يمكننا تحديد متى تكون هذه التفسيرات جديرة بالثقة بما يكفي لاستخدامها في التحليلات؟ لمعالجة هذا السؤال، نقوم بإجراء تقييم شامل وكمي لأساليب الرالف في فئة أساسية من نماذج NLP: نماذج اللغة العصبية. نقيم جودة تفسيرات التنبؤ من وجهات نظر اثنين يمثل كل منها خاصية مرغوبة لهذه التفسيرات: المعقولية والإخلاص. يتم إجراء تقييمنا على أربع مجموعات بيانات مختلفة تم بناؤها من الشرح البشري الحالي للاتفاقات النحوية واللالسة، على مستوى الحكم على مستوى الحكم والوثائق. من خلال تقييمنا، حددنا طرق مختلفة من الطرق التي يمكن أن تسفر عن تفسيرات ذات جودة منخفضة. نوصي بأن ينشر العمل المستقبلي لنشر هذه الأساليب إلى نماذج اللغة العصبية صحة تفسيراتها بعناية قبل رسم رؤى.
نحن نصف مشاركتنا في جميع المهام المشتركة بين Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وتحقيق الحقائق.نظامنا هو مجموعة من النماذج المدربة مسبقا من أحدث المعلومات المصنوعة من الميزات المصنعة بعناية.نظهر أن ميزة الهندسة وتكبير البيانات يمكن أن تكون مفيدة عندما تكون البيانات التدريبية متناثرة.نحن نحقق درجة F1 من 66.87 و 68.93 و 73.91 في التعليق السام والمشاركة في التعليق في التعليق التعليق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا