ترغب بنشر مسار تعليمي؟ اضغط هنا

معجم للحصول على تحديد نصي ونص فاحش في البنغالية

A Lexicon for Profane and Obscene Text Identification in Bengali

167   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

البنغالية هي لغة موارد منخفضة تفتقر إلى الأدوات والموارد الخاصة بالكشف عن المحتوى النصي النصي والفاحش.حتى الآن، لا يوجد معجم لكشف الفاحش في نص وسائل الإعلام الاجتماعية البنغالية.تقدم هذه الدراسة معجم بنغالي فاحشين يتكون من أكثر من 200 مصطلحات بنغالية، والتي يمكن اعتبارها قذرة أو عامية صلبة أو فاحشة أو فاحشة.يتم تقديم منهجية شبه أوتوماتيكية لتطوير المعجم الملحق الذي يهدف إلى تطور كائنات فاحشة وكلمة تضمين وكالة الكلام (POS).يحقق المعجم المطور تغطية حوالي 0.85 للكشف عن المحتوى الفاحش والمحتوى في مجموعة بيانات التقييم.تنطوي النتائج التجريبية على أن المعجم المطور فعال في تحديد الفحش في محتوى بنغالي وسائل التواصل الاجتماعي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تلقت الأساليب القائمة على القاموس في تحليل المعنويات الاهتمام العلمي مؤخرا، وأكثر الأمثلة الشاملة التي يمكن العثور عليها باللغة الإنجليزية. ومع ذلك، فإن العديد من اللغات الأخرى تفتقر إلى قواميس القطبية، أو تلك الموجودة صغيرة الحجم كما في حالة SentiTu rknet، أول وفقط القطبية القاسم في التركية. وبالتالي، تهدف هذه الدراسة إلى تمديد محتوى SentiTurknet من خلال مقارنة الكلامين المتاحين في التركية، وهي Kenet و TR-Wordnet من Balkanet. تحقيقا لهذه الغاية، تم إنشاء قاموس الأسقفية التركية الحالية بالاعتماد على 76825 متلازمة مطابقة Kenet، حيث تم تفاح كل Synset مع ثلاث ملصقات قطبية، وهي إيجابية وسلبية ومحايدة. وفي الوقت نفسه، كشفت مقارنة Kenet و Tr-Wordnet of Balkanet عن نقاط الضعف الخاصة بهم مثل تكرار نفس الحواس، ونقص الدمج اللازم للعناصر التي تنتمي إلى نفس المكامنة ووجود إصدارات أضيق زائدة من التزامن، والتي تتم مناقشتها في ضوء إمكاناتهم لتحسين قواعد البيانات المعجمية الحالية التركية.
تبين أن تقدير الجودة (QE) للترجمة الآلية تصل إلى دقة عالية نسبيا في التنبؤ بعشرات على مستوى الجملة، والاعتماد على المدينات السياقية المحددة مسبقا وعشرات الجودة المنتجة للإنسان. ومع ذلك، فإن الافتقار إلى التفسيرات إلى جانب القرارات التي اتخذتها النماذ ج العصبية نهاية إلى نهاية تجعل النتائج يصعب تفسيرها. علاوة على ذلك، فإن مجموعات البيانات المشروحة على مستوى الكلمات نادرة بسبب الجهد الباهظ المطلوب لإجراء هذه المهمة، في حين أنهم قد يوفرون إشارات قابلة للتفسير بالإضافة إلى مخرجات QE على مستوى الجملة. في هذه الورقة، نقترح هندسة QE الجديدة التي تعالج كل من ندرة البيانات على مستوى الكلمة والقيود التفسيرية للنهج الأخيرة. يتم احترام مكونات مستوى الجملة ومستوى الكلمات بشكل مشترك من خلال آلية اهتمام بناء على البيانات الاصطناعية ومجموعة من مقاييس MT المضمنة في مساحة مشتركة. يتم تقييم نهجنا على المهمة المشتركة ESPR4NLP 2021 وتوصل عمليات التقديمات لدينا إلى المركز الأول في جميع أزواج اللغات. تظهر استخراج أوزان الاهتمام المتراكي إلى المدخلات أن مقاييس مختلفة تركز على أجزاء مختلفة من المصدر والنص المستهدف، مما يوفر منورات تدريبية قوية في عملية صنع القرار لنموذج QE.
يؤدي المعجم دورا مهما في أنظمة معالجة اللغات الطبيعية وخصوصا انظمة الترجمة الألية، فهو يزود أجزاء المنظومة بالمعلومات الضرورية لعملية الترجمة, وعلى الرغم من وجود العديد من البحوث في إطار معالجة اللغات الطبيعية، لم يكن هناك اهتمام كاف في المعجم وخصوصا المعجم العربي.
تصف هذه الورقة النموذج المدمج للمهمة المشتركة SIGTYP 2021 التي تهدف إلى تحديد 18 لغة مختلفة عن تسجيلات الكلام.يتم تحويل معاملات CEPSTRAL Mel-تردد Mel المستمدة من الملفات الصوتية إلى طفرات، ثم تغذيها بعد ذلك في بنية CNN المستند إلى 50.حصل النموذج النه ائي على التحقق من الصحة واختبار بدلة 0.73 و 0.53، على التوالي.
في هذه الورقة، نقدم FitannoTator، أداة عامة على شبكة الإنترنت العامة لفئة التعريف النصوضي.الاستفادة من تصميم الهيكل المعياري بالكامل، يوفر مرح COMTANNOTATOR حل منهجي للتعليق على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، بما في ذلك التصنيف، ووضع عل امات التسلسل والتعليق الدلالي، بغض النظر عن اللغة.يتم تطوير ثلاثة أنواع من الواجهات للتعليق على المثيلات، وتقييم جودة التوضيحية وإدارة المهمة الشروية للتعليق والمراجعين والمديرين على التوالي.يقدم FitannoTator أيضا شرحا ذكاءا عن طريق إدخال مساعد خاص بالفصل لدعم وتوجيه المحن المعلقين بناء على التعلم النشط واستراتيجيات التعلم الإضافية.هذا المساعد قادر على التحديث الفعال من التقيمات Annotator ويعالج بسهولة سيناريوهات العلامات الإضافية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا