ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف تغريدات الرقابة باللغة الصينية باستخدام XLNet

Classification of Censored Tweets in Chinese Language using XLNet

163   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في نمو العالم اليوم والتكنولوجيا المتقدمة، تلعب شبكات وسائل التواصل الاجتماعي دورا مهما في التأثير على الأرواح البشرية.الرقابة هي الإطاحة عن الكلام أو ناقل الحركة العام أو التفاصيل الأخرى التي تلعب دورا كبيرا في وسائل التواصل الاجتماعي.قد يتم اعتبار المحتوى ضارا أو حساسا أو غير مريح.السلطات مثل المعاهد والحكومات وغيرها من المنظمات تصرف الرقابة.نفذت هذه الورقة نموذجا يساعد على تصنيف التغريدات الرقابة والكشف عنها كتصنيف ثنائي.تصف الورقة تقديمها إلى مهمة مشتركة للرقابة في ورشة عمل NLP4IF 2021.استخدمنا العديد من النماذج المدربة المستندة إلى المحولات، وتخرج XLNet دقة أفضل بين الجميع.نحن نضقل النموذج للحصول على أداء أفضل وحققت دقة معقولة، وتحسب مقاييس الأداء الأخرى.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الدراسة، ندرس تغيير اللغة في Biji الصينية باستخدام مهمة التصنيف: تصنيف النصوص الصينية القديمة حسب الفترات الزمنية. على وجه التحديد، نحن نركز على نوع فريد من نوعه في الأدب الصيني الكلاسيكي: BIJI (حرفيا دفتر الملاحظات "أو الملاحظات الفرشاة")، أي مجموعة من الحكايات، الاقتباسات، إلخ، أي شيء مؤلفين ينظرون إلى جديرة بالملاحظة، تمتد Biji مئات السنين عبر العديد من السلالات والحفاظ على لغة غير رسمية في شكل مكتوب. لهذه الأسباب، يعتبرون موردا جيدا لتحقيق تغيير اللغة في الصينية (فانغ، 2010). في هذه الورقة، نقوم بإنشاء مجموعة بيانات جديدة من 108 Biji عبر أربع سلالات. بناء على DataSet، نقدم أولا مهمة تصنيف الفترة الزمنية للصينيين. ثم نحقق في طرق تمثيل ميزة مختلفة للتصنيف. تظهر النتائج أن النماذج باستخدام المدينات السياقية تؤدي الأفضل. يؤكد تحليل لأعلى الميزات المختارة من قبل نموذج Word N-Gram (بعد التبييض الأسماء المناسبة) أن هذه الميزات مفيدة وتتوافق مع الملاحظات والافتراضات المقدمة من اللغويين التاريخيين.
يعد العمل المبلغ عنه وصف لمشاركتنا في تصنيف تغريدات CovID19 التي تحتوي على أعراض "مهمة مشتركة، نظمتها تعدين وسائل التواصل الاجتماعي للتطبيقات الصحية (SMM4H)" ورشة العمل.يصف الأدبيات نهجا لتعلم جهازين تم استخدامها لبناء نظام تصنيف من الدرجة الثلاثة، و هذا يصنف التغريدات المتعلقة CovID19، إلى ثلاث فصول، بزيادة، التقارير الذاتية، والتقارير غير الشخصية، وأدب / إخباري.يتم وصف خطوات تغريدات المعالجة المسبقة، واستخراج ميزة، وتطوير نماذج تعلم الجهاز، على نطاق واسع في الوثائق.حصل كل من نماذج التعلم المتقدمة، عند تقييمه من قبل المنظمين، عشرات F1 من 0.93 و 0.92 على التوالي.
تصف هذه الدراسة تصميمنا النموذج المقترح لمهام SMM4H 2021 المشتركة.نحن نغلب النموذج اللغوي لمحولات روبرتا ومصنفهم التوصيل لإكمال مهام التصنيف في تغريدات لنتائج الحمل المعاكسة (المهمة 4) والحالات Covid-19 المحتملة (المهمة 5).متري التقييم هو درجة F1 للف ئة الإيجابية لكلا المهام.بالنسبة للمهمة 4، تجاوزت نقاط لدينا أفضل 0.93 درجة متوسط 0.925.بالنسبة للمهمة 5، تجاوزت أفضل ما بين 0.75 درجة متوسط 0.745.
في هذه الورقة، نقترح آلية تسريب المعرفة لإدماج معرف المجال إلى محولات اللغة. يعتبر البيانات الخاضعة للإشراف ضعيفا كمصدر رئيسي للاستحواذ على المعرفة. نحن ندرب نماذج اللغة مسبقا لالتقاط المعرفة الملثمين بالتركيز والجوانب ثم قم بضبطها للحصول على أداء أف ضل على مهام المصب. نظرا لعدم وجود مجموعات بيانات متوفرة للجمهور لتصنيف متعدد التسميات للأسئلة الطبية الصينية، زحفنا أسئلة من منتديات السؤال الطبي / الإجابة وشرحتها يدويا باستخدام ثمانية فصول محددة مسبقا: الأشخاص والمنظمات، والأعراض، والسبب، والفحص والمرض، والمعلومات، المكون، والعلاج. أخيرا، ما مجموعه 1814 سؤالا مع 2،340 ملميا. يحتوي كل سؤال على متوسط ​​1.29 ملصقات. استخدمنا موسوعة بايدو الطبية كمورد المعرفة. تم تنفيذ برت محولين وروبرتا لمقارنة الأداء على مجموعات بياناتنا المبنية. أظهرت النتائج التجريبية أن نموذجنا المقترح مع آلية ضخ المعرفة يمكن أن يحقق أداء أفضل، بغض النظر عن متري التقييم بما في ذلك ماكرو F1 أو مايكرو F1 أو الدقة المزدوجة الواردة في الدقة الفرعية.
نستخدم شبكات انتباه Hypergraph (Hypergat) للتعرف على ملصقات متعددة من النصوص الصينية الفكاهة.نحن أولا تمثل مزحة كملفوق.يتم استخدام هياكل Hyperedge المتسلسلة واللالسة الدلالية لبناء Hyperedges.ثم، يتم اعتماد آليات الاهتمام لمعلومات السياق التجميعية ال مضمنة في العقد والمواد التوظيف.أخيرا، نستخدم Hypergat المدربين لإكمال مهمة تصنيف العلامات المتعددة.أظهرت النتائج التجريبية على مجموعة بيانات الفكاهة الصينية متعددة التسمية أن نموذج Hypergat يتفوق على النماذج السابقة على التسلسل السابق (CNN، Bilstm، FastText) ورسم الرسم البياني (Graph-CNN، TextGcn، GNN Level Student).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا