ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج اللغة العصبية النمذجة عن الرأي المتعدد الأبعاد التعدين البيانات الاجتماعية الإنجليزية - المالطية

Fine-tuning Neural Language Models for Multidimensional Opinion Mining of English-Maltese Social Data

391   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعرض هذه الورقة تعدد الأبعاد التعدين على المحتوى الذي تم إنشاؤه من قبل المستخدم الذي تم جمعه من Newshires وخدمات الشبكات الاجتماعية بثلاث لغات مختلفة: اللغة الإنجليزية --- لغة عالية الموارد، المالطية --- لغة منخفضة الموارد، والالططية-الإنجليزية -- لغة تبديل الكود.العديد من طرازات لغة التصنيف العصبي المتعددة التي تلبي اللغات التي تلبيها اللغات الإنجليزية واللطاطية واللطاطية والإنجليزية وكذلك الثانية) خمسة أبعاد الرأي الاجتماعي المختلفة، وهي الذاتية، قطبية المعنويات، العاطفة والسخرية والسخرية، مقدمة.تتم مناقشة النتائج لكل نموذج تصنيف لكل البعد الاجتماعي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا البرنامج التعليمي، سنظهر أين نحن وأين سنكون في هؤلاء الباحثين المهتمين بهذا الموضوع.نقسم هذا البرنامج التعليمي في ثلاثة أجزاء، بما في ذلك تعدين الرأي المالي الخشبي، والتعدين الرأي المالي المحتلة الجميلة، والاتجاهات البحثية المحتملة.يبدأ هذا ال برنامج التعليمي بتقديم المكونات في الرأي المالي المقترح في جدول أعمالنا ويلخص دراساتها ذات الصلة.كما نسلط الضوء على مهمة تعني آراء العملاء تجاه الخدمات المالية في صناعة الاصطناعي، ومقارنتها بالآراء المعتادة.سيتم تناول العديد من الأسئلة البحوث المحتملة.نأمل أن تكتسب جمهور هذا البرنامج التعليمي لمحة عامة عن التعدين في الرأي المالي ومعرفة اتجاهات البحث الخاصة بهم.
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
نظرا لأن نماذج NLP منتشرة بشكل متزايد في إعدادات موقع اجتماعي مثل الكشف عن المحتوى المسيء عبر الإنترنت، فمن الضروري التأكد من أن هذه النماذج قوية. تتمثل إحدى طرق تحسين متواضع النموذج في إنشاء بيانات معدية مضادة للعمل (CAD) لنماذج التدريب التي يمكن أن تتعلم بشكل أفضل التمييز بين الميزات الأساسية وتذكير البيانات. في حين أن النماذج المدربة على هذا النوع من البيانات قد أظهرت تعميم تعميمات خارج نطاق، فلا تزال غير واضحة ما هي مصادر هذه التحسينات. نحقق في فوائد CAD لنماذج NLP الاجتماعية من خلال التركيز على ثلاثة بنيات الحوسبة الاجتماعية --- الشعور والجوعي، خطاب الكراهية. تقييم أداء النماذج المدربة مع وبدون CAD عبر أنواع مختلفة من مجموعات البيانات، نجد أنه أثناء قيام النماذج المدربة على CAD بإظهار الأداء السفلي داخل المجال، فإنهم يعممون أفضل من المجال. نحن نفث هذا التناقض الواضح باستخدام تفسيرات الجهاز والعثور على أن CAD يقلل من الاعتماد على النموذج على ميزات زائفة. الاستفادة من نطق رواية من CAD لتحليل علاقتهم بأداء نموذجي، نجد أن CAD الذي يعمل على البناء مباشرة أو مجموعة متنوعة من CAD يؤدي إلى أداء أعلى.
حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في هذه الدراسة، نقوم بتصميم وتنفيذ أنواع مختلفة من أساليب الاضطرابات على مستوى الأحرف ومستوى الكلمة لمحاكاة السيناريوهات الواقعية التي قد تكون فيها نصوص الإدخال صاخبة قليلا أو مختلفة عن توزيع البيانات التي تم تدريبها على أنظمة NLP عليها. إجراء تجارب شاملة على مهام NLP المختلفة، فإننا نبحث في قدرة نماذج اللغة العالية الأداء مثل Bert و Xlnet و Roberta و ELMO في التعامل مع أنواع مختلفة من اضطرابات الإدخال. تشير النتائج إلى أن نماذج اللغة حساسة للاضطرابات الإدخال ويمكن أن تنخفض أدائها حتى عند تقديم تغييرات صغيرة. نسلط الضوء على هذه النماذج تحتاج إلى مزيد من المحسن وأن المعايير الحالية لا تعكس متانة النموذج جيدا. نقول أن التقييمات بشأن المدخلات المضطربة يجب أن تكمل المعايير المستخدمة بشكل روتيني من أجل تحقيق فهم أكثر واقعية لمتانة أنظمة NLP.
في هذه الورقة مقارنة أداء ثلاث نماذج: SGNS (أخذ العينات السلبية Skip-Gram) والإصدارات المعززة من SVD (تحلل القيمة المفرد) و PPMI (معلومات متبادلة إيجابية) على مهمة تشابه كلمة.نحن نركز بشكل خاص على دور ضبط فرط التشعيم من أجل الهندية القائمة على التوصي ات المقدمة في العمل السابق (على اللغة الإنجليزية).تظهر نتائجنا أن هناك تفضيلات محددة للغة لهذه الفرط.نحن نقدم أفضل إعدادات للهيكلية إلى مجموعة من اللغات ذات العلاقة: البنجابية، الغوجاراتية والمريثي مع نتائج مواتية.نجد أيضا أن نموذج SVD يتم ضبطه بشكل مناسب يتفوق على SGNS لمعظم لغاتنا وهو أيضا أكثر قوة في إعداد الموارد المنخفضة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا