ترغب بنشر مسار تعليمي؟ اضغط هنا

وصف تباين اللغة الإنجليزية عبر مجتمعات وسائل التواصل الاجتماعي مع بيرت

Characterizing English Variation across Social Media Communities with BERT

285   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة الكثير من العمل السابق الذي تميز تباين اللغة عبر الإنترنت، ركزت مجموعات الاجتماعية على الإنترنت على أنواع الكلمات التي تستخدمها هذه المجموعات.نحن نقدم هذا النوع من الدراسة من خلال توظيف بيرت لتوصيف الاختلاف في حواس الكلمات أيضا، وتحليل شهرين من التعليقات الإنجليزية في 474 مجتمعات Reddit.يتم استخدام خصوصية مجموعات الشعور المختلفة للمجتمع، جنبا إلى جنب مع خصوصية أنواع الكلمات الفريدة للمجتمع، لتحديد الحالات التي تنحرف فيها لغة مجموعة اجتماعية عن القاعدة.نحن نقوم بالتحقق من صحة مقاييسنا باستخدام المعلقات التي تم إنشاؤها من قبل المستخدم وارسم النظريات الاجتماعية لتوصيل تباين اللغة بالاتجاهات في سلوك المجتمع.نجد أن المجتمعات ذات اللغة المميزة للغاية هي متوسطة الحجم، وتفاعل المستخدمين المواليين والمخروطين للغاية في الشبكات الكثيفة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مساهمة Helsinki - Ljubljana المهمة المشتركة في عام 2021 في مجال تحديد الموقع الجغرافي للوسائط الجغرافية الاجتماعية.بعد مشاركتنا الناجحة في 32020، اقترحنا مرة أخرى أنظمة مقيدة وغير مقيدة بناء على بنية بيرت.في هذه الورقة، نقوم بالإبلاغ ع ن تجارب مع إعدادات التكوين المختلفة ونماذج مختلفة تم تدريبها مسبقا، وننظر إلى نهج الانحدار الخالي من المعلمة مع مخططات التصنيف المختلفة التي اقترحها المشاركين الآخرون في كل من التعليمات الفاردة 2020. كل من التعليمات البرمجية وأفضل أداء مسبقا مسبقايتم تقديم النماذج بحرية المتاحة.
يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمك ننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.
غالبا ما تحتوي نصوص وسائل التواصل الاجتماعي مثل منشورات المدونة والتعليقات والتغريدات بلغات هجومية بما في ذلك تعليقات خطاب الكراهية العنصرية والهجمات الشخصية والتحرش الجنسي.لذلك اكتشاف الاستخدام غير المناسب للغة هو أهمية قصوى لسلامة المستخدمين وكذلك لقمع السلوك البغيض والعدوان.الأساليب الحالية لهذه المشكلة متاحة في الغالب لغات غنية بالموارد مثل الإنجليزية والألمانية.في هذه الورقة، نميز اللغة المسيئة في النيبالية، وهي لغة موارد منخفضة، تسليط الضوء على التحديات التي يجب معالجتها لمعالجة نص وسائل الإعلام الاجتماعية النيبالية.نقدم أيضا تجارب للكشف عن اللغة المسيئة باستخدام تعلم الآلات الخاضعة للإشراف.إلى جانب المساهمة في أول مناهج خط الأساس في الكشف عن اللغة الهجومية في النيبالية، نطلق أيضا على مجموعات البيانات المشروح البشرية لتشجيع البحث في المستقبل على هذا الموضوع الحاسم.
إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات ال مستقلة من اللغة. في الآونة الأخيرة، يمكن أيضا تدريب نماذج اللغة القائمة على المحولات مثل Bert مسبقا على لغات متعددة، مما يجعلها مرشحا بديهيا للصفوفات المصنوعة من اللغة عبر اللغات التي لم يتم استخدامها لهذه المهمة بعد. نقوم بإجراء تجارب مكثفة لقياس أداء ثلاث نهج مختلفة لتجربة إسناد التأليف الصغير باللغة الصغيرة: (1) استخدام الميزات المستقلة للغات مع نماذج التصنيف التقليدية (2) باستخدام نماذج لغة مدربة مسبقا متعددة اللغات، و (3) استخدام الترجمة الآلية للسماح بتصنيف اللغة الفردي. بالنسبة للميزات المستقلة باللغة، فإننا نستخدم ميزات النحوية العالمية مثل علامات جزء من الكلام ورسم الرسوم البيانية التبعية، ومبرز متعدد اللغات كنموذج لغة مدرب مسبقا. نحن نستخدم تعليقات البيانات الاجتماعية الصغيرة على نطاق واسع، مما يعكس بشكل وثيق السيناريوهات العملية. نظهر أن تطبيق الترجمة الآلية يزيد بشكل كبير من أداء جميع الأساليب تقريبا، وأن الميزات الأساسية في تركيبة مع خطوة الترجمة تحقق أفضل أداء التصنيف الكلي. على وجه الخصوص، نوضح أن نماذج اللغة المدربة مسبقا متفوقة من قبل النماذج التقليدية في مشاكل إسناد التأليف الصغيرة على نطاق صغير لكل مزيج لغة تم تحليلها في هذه الورقة.
تضع الكشف عن الشائعات على وسائل التواصل الاجتماعي نماذج لغة مدربة مسبقا (LMS)، مثل Bert، والميزات المساعدة، مثل التعليقات، قيد الاستخدام. ومع ذلك، من ناحية، فإن مجموعات بيانات الكشف عن الشائعات في الشركات الصينية مع تعليقات نادرة؛ من ناحية أخرى، فإن التفاعل المكثف من الاهتمام على النماذج القائمة على المحولات مثل بيرت قد يعيق تحسين الأداء. لتخفيف هذه المشاكل، نبني مجموعة بيانات جديدة من المدونات الصغيرة الصينية تسمى Weibo20 من خلال جمع الوظائف والتعليقات المرتبطة بها من سينا ​​ويبو واقترح فرقة جديدة تسمى Stanker (Bracking Network بناء على الانتباه ملثمين). تتبنى Stanker نماذج برت ملثمين من اهتمامات اثنين من المحبوسين على مستوى تشفير قاعدة. على عكس الخطابة الأصلية، يتخذ نموذج LGAM-Bert الجديد الخاص بنا تعليقات كملفات مساعدة مهمة ويعتد على الانتباه بين الوظائف والتعليقات على الطبقات المنخفضة. أظهرت التجارب على Weibo20 وثلاث مجموعات بيانات وسائل التواصل الاجتماعي الحالية أن الستائر تفوقت على جميع النماذج المقارنة، وخاصة ضرب الدولة القديمة في مجموعة بيانات Weibo.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا