ترغب بنشر مسار تعليمي؟ اضغط هنا

إنشاء وتقييم الموارد لتحليل المعرفات في لغة الموارد المنخفضة: Sindhi

Creating and Evaluating Resources for Sentiment Analysis in the Low-resource Language: Sindhi

287   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نطور Sindhi معجم شخصي باستخدام دمج الموارد الإنجليزية القائمة: NRC Lexicon، قائمة كلمات الرأي، Sentiwordnet، Sindhi-English Dictionary، وجمع معدلات Sindhi.يتم تعيين درجة المشاعر الإيجابية أو السلبية لكل كلمة sindhi رأي.بعد ذلك، نحدد تغطية المعجم المقترح مع تحليل الذاتية.علاوة على ذلك، نحن الزحف من سقسقة المجال سقسقة من الأخبار والرياضة والتمويل.يتم تفجيح Crescus Corpus من قبل Annetators ذوي الخبرة باستخدام أداة توضيح النص Doccano.يتم تقييم المشاعر المشروحة Corpus من خلال توظيف آلة ناقلات الدعم (SVM)، والشبكات العصبية المتكررة (RNN)، والشبكة العصبية التنافسية (CNN).



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

المحولات هي وحدات خفيفة الوزن تسمح بضبط النماذج الدقيقة التي يتمتع بها المعلمة. تم اقتراح محولات اللغة والمهمة المتخصصة مؤخرا لتسهيل التحويل عبر اللغات للنماذج المحددة متعددة اللغات (Pfeiffer et al.، 2020b). ومع ذلك، يتطلب هذا النهج تدريب محول لغة من فصل لكل لغة ترغب في الدعم، مما قد يكون غير صحيح لغات مع بيانات محدودة. الحل البديهي هو استخدام محول لغة ذات صلة لتنوع اللغات الجديدة، لكننا نلاحظ أن هذا الحل يمكن أن يؤدي إلى الأداء دون الأمثل. في هذه الورقة، نهدف إلى تحسين متانة المحولات اللغوية باللغات غير المكشوفة دون تدريب محولات جديدة. نجد أن الكشف عن محولات متعددة اللغات متعددة يجعل النموذج الدقيق أكثر قوة أكثر بكثير من أصناف اللغة الأخرى غير المدرجة في هذه المحولات. بناء على هذه الملاحظة، نقترح Entropy Minimized Entermble of Adrapters (EMEA)، وهي طريقة تعمل على تحسين أوزان مجموعة محولات اللغة المحددة مسبقا لكل جملة اختبار عن طريق تقليل انتروبيا من تنبؤاتها. تبين التجارب في ثلاث مجموعات متنوعة من الأصناف اللغوية أن طريقتنا تؤدي إلى تحسينات كبيرة على كل من الاعتراف الكياري المسمى ووضع علامات جزء من الكلام في جميع اللغات.
أصبح أكبر انفجار أفضل في عدد المعلمات في الشبكات العصبية العميقة جعلته صعبة بشكل متزايد لجعل الشبكات الحديثة التي يمكن الوصول إليها في البيئات المقيدة لحسابها. أخذت تقنيات ضغط الأهمية المتجددة كوسيلة لسد الفجوة. ومع ذلك، فإن تقييم المفاضلات المتكبدة من خلال تقنيات الضغط الشعبية قد تركزت على مجموعات بيانات عالية الموارد. في هذا العمل، نعتبر بدلا من ذلك تأثير الضغط في نظام محدود من البيانات. نقدم مصطلح رابط مزدوج الموارد المنخفضة للإشارة إلى حدوث قيود البيانات ويحسب قيود الموارد. هذا هو إعداد شائع لبرنامج NLP لغات الموارد المنخفضة، ومع ذلك، تتم دراسة المفاضلات في الأداء بشكل سيء. يقدم عملنا رؤى مفاجئة في العلاقة بين القدرات والتعميم في الأنظمة المحدودة البيانات لمهمة الترجمة الآلية. تجاربنا على حجم تشذيب الترجمات من الإنجليزية إلى يوروبا، هاوسا، إغيبو وألماني تظهر أنه في أنظمة الموارد المنخفضة، تحافظ Sparsity على أداء على جمل متكررة ولكن لها تأثير متباين على النادر. ومع ذلك، فإنه يعمل على تحسين نوبات التوزيع، وخاصة بالنسبة لمجموعات البيانات المميزة للغاية عن توزيع التدريب. تشير نتائجنا إلى أن Sparsity يمكن أن تلعب دورا مفيدا في الحد من حفظ سمات التردد المنخفضة، وبالتالي يقدم حلا واعدا للربط المزدوج الموارد المنخفضة.
لبناء أنظمة التبسيط الآلي، وهي كورسا من الجمل المعقدة وإصداراتها المبسطة هي الخطوة الأولى لفهم تعقيد الجملة وتمكين تطوير أنظمة تبسيط النص التلقائي.نقدم مجموعة تبسيط الأردية المعجمية والمبسلة بموجبها بتحليل مفصل لعمليات التبسيط المختلفة والتقييم البشر ي لجودة Corpus.لدينا أيضا تحليل شريونا باستخدام تدابير قابلية لقراءة النص وتقديم مقارنة بين الشركات الأصلية المعجمية والمبسطة بسيطة ومبسرة.بالإضافة إلى ذلك، قارنا كوربوس لدينا مع شركة تبسيط موجودة أخرى من خلال بناء أنظمة تبسيط وتقييم هذه الأنظمة باستخدام درجات بلو وسري.يحقق نظامنا أعلى درجة بلو ونتيجة ساري مقارنة بالمقارنة مع الأنظمة الأخرى.ونحن نطلق سرورا تبسيطنا لصالح مجتمع البحث.
تصف هذه الورقة مشاركة الفريق Onenlp (LTRC، IIIT-Hyderabad) لمهمة WMT 2021، ترجمة لغوية مماثلة.لقد جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام تشابه لغة Tamil-Telugu وتيلجو التاميل.لقد أدمجنا استخدام تكوينات الكلمات الفرعية المخت لفة، وتحويل البرنامج النصي والتدريب النموذجي الفردي لكلا الاتجاهين كجارب استكشافية.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا