ترغب بنشر مسار تعليمي؟ اضغط هنا

إزدام التأليف عبر النطاق عبر النطاق الصغير على تعليقات وسائل التواصل الاجتماعي

Small-Scale Cross-Language Authorship Attribution on Social Media Comments

358   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات المستقلة من اللغة. في الآونة الأخيرة، يمكن أيضا تدريب نماذج اللغة القائمة على المحولات مثل Bert مسبقا على لغات متعددة، مما يجعلها مرشحا بديهيا للصفوفات المصنوعة من اللغة عبر اللغات التي لم يتم استخدامها لهذه المهمة بعد. نقوم بإجراء تجارب مكثفة لقياس أداء ثلاث نهج مختلفة لتجربة إسناد التأليف الصغير باللغة الصغيرة: (1) استخدام الميزات المستقلة للغات مع نماذج التصنيف التقليدية (2) باستخدام نماذج لغة مدربة مسبقا متعددة اللغات، و (3) استخدام الترجمة الآلية للسماح بتصنيف اللغة الفردي. بالنسبة للميزات المستقلة باللغة، فإننا نستخدم ميزات النحوية العالمية مثل علامات جزء من الكلام ورسم الرسوم البيانية التبعية، ومبرز متعدد اللغات كنموذج لغة مدرب مسبقا. نحن نستخدم تعليقات البيانات الاجتماعية الصغيرة على نطاق واسع، مما يعكس بشكل وثيق السيناريوهات العملية. نظهر أن تطبيق الترجمة الآلية يزيد بشكل كبير من أداء جميع الأساليب تقريبا، وأن الميزات الأساسية في تركيبة مع خطوة الترجمة تحقق أفضل أداء التصنيف الكلي. على وجه الخصوص، نوضح أن نماذج اللغة المدربة مسبقا متفوقة من قبل النماذج التقليدية في مشاكل إسناد التأليف الصغيرة على نطاق صغير لكل مزيج لغة تم تحليلها في هذه الورقة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد منصات وسائل التواصل الاجتماعي عبر الإنترنت على نحو متزايد على تقنيات معالجة اللغة الطبيعية (NLP) للكشف عن محتوى مسيء على نطاق واسع من أجل تخفيف الأضرار التي يسببها لمستخدميها. ومع ذلك، فإن هذه التقنيات تعاني من مختلف تحيزات أخذ العينات والجمعية الموجودة في البيانات التدريبية، والتي غالبا ما تؤدي إلى أداء الفرعية على المحتوى ذي الصلة بالمجموعات المهمشة، مما يحتمل أن يؤدي إلى أضرار غير متناسبة تجاههم. ركزت دراسات حول مثل هذه التحيزات حتى الآن على حفنة فقط من محاور التباينات والمجموعات الفرعية التي تحتوي على التعليقات التوضيحية / المعجم المتاحة. وبالتالي، يتم تجاهل التحيزات المتعلقة بالسياقات غير الغربية إلى حد كبير في الأدبيات. في هذه الورقة، نقدم طريقة خاضعة للإشراف ضعيفا للكشف عن التحيزات المعجمية بقوة في السياقات الجغرافية الثقافية الأوسع نطاقا. من خلال دراسة الحالة حول نموذج كشف للسمية المتوفرة للجمهور، نوضح أن طريقتنا تحدد المجموعات البارزة من الأخطاء المتبادلة الجغرافية، وفي متابعة، توضح أن هذه التجمعات تعكس الأحكام الإنسانية من اللغة الهجومية واللغة الفعلية في تلك السياقات الجغرافية. نحن أيضا إجراء تحليل نموذج تدرب على مجموعة بيانات مع ملصقات الحقيقة الأرضية لفهم هذه التحيزات بشكل أفضل، وتقديم تجارب التخفيف الأولي.
مجردة الكثير من العمل السابق الذي تميز تباين اللغة عبر الإنترنت، ركزت مجموعات الاجتماعية على الإنترنت على أنواع الكلمات التي تستخدمها هذه المجموعات.نحن نقدم هذا النوع من الدراسة من خلال توظيف بيرت لتوصيف الاختلاف في حواس الكلمات أيضا، وتحليل شهرين من التعليقات الإنجليزية في 474 مجتمعات Reddit.يتم استخدام خصوصية مجموعات الشعور المختلفة للمجتمع، جنبا إلى جنب مع خصوصية أنواع الكلمات الفريدة للمجتمع، لتحديد الحالات التي تنحرف فيها لغة مجموعة اجتماعية عن القاعدة.نحن نقوم بالتحقق من صحة مقاييسنا باستخدام المعلقات التي تم إنشاؤها من قبل المستخدم وارسم النظريات الاجتماعية لتوصيل تباين اللغة بالاتجاهات في سلوك المجتمع.نجد أن المجتمعات ذات اللغة المميزة للغاية هي متوسطة الحجم، وتفاعل المستخدمين المواليين والمخروطين للغاية في الشبكات الكثيفة.
اللغة المسيئة هي ظاهرة متزايدة على منصات وسائل التواصل الاجتماعي. يمكن أن تصل آثارها إلى ما بعد السياق عبر الإنترنت، والمساهمة في الضغط العقلي أو العاطفي على المستخدمين. يمكن للأدوات التلقائية للكشف عن سوء المعاملة تخفيف المشكلة. في الممارسة العملية، تعتمد تطوير طرق تلقائية للكشف عن لغة مسيئة على بيانات ذات نوعية جيدة. ومع ذلك، هناك حاليا نقص المعايير لإنشاء مجموعات البيانات في هذا المجال. وتشمل هذه المعايير تعريفات لما يعتبر لغة مسيئة وإرشادات التوضيحية والإبلاغ عن العملية. تقدم هذه الورقة إطارا شرحا مستوحى من المفاهيم القانونية لتحديد اللغة المسيئة في سياق المضايقات عبر الإنترنت. يستخدم الإطار مقياسا Likert 7 نقاط للوضع العلامات بدلا من التسميات الفئة. نحن نقود أيضا Alyt - مجموعة بيانات من لغة مسيئة على YouTube. يتضمن Alyt تعليقات YouTube باللغة الإنجليزية من مقاطع الفيديو حول موضوعات مختلفة مثيرة للجدل ومسمى طلاب القانون. تم أخذ عينات من التعليقات من البيانات التي تم جمعها فعليا، دون أساليب اصطناعية لزيادة المحتوى المسيء. تصف الورقة عملية التوضيحية بدقة، بما في ذلك جميع المبادئ التوجيهية وخطوات التدريب.
غالبا ما تحتوي نصوص وسائل التواصل الاجتماعي مثل منشورات المدونة والتعليقات والتغريدات بلغات هجومية بما في ذلك تعليقات خطاب الكراهية العنصرية والهجمات الشخصية والتحرش الجنسي.لذلك اكتشاف الاستخدام غير المناسب للغة هو أهمية قصوى لسلامة المستخدمين وكذلك لقمع السلوك البغيض والعدوان.الأساليب الحالية لهذه المشكلة متاحة في الغالب لغات غنية بالموارد مثل الإنجليزية والألمانية.في هذه الورقة، نميز اللغة المسيئة في النيبالية، وهي لغة موارد منخفضة، تسليط الضوء على التحديات التي يجب معالجتها لمعالجة نص وسائل الإعلام الاجتماعية النيبالية.نقدم أيضا تجارب للكشف عن اللغة المسيئة باستخدام تعلم الآلات الخاضعة للإشراف.إلى جانب المساهمة في أول مناهج خط الأساس في الكشف عن اللغة الهجومية في النيبالية، نطلق أيضا على مجموعات البيانات المشروح البشرية لتشجيع البحث في المستقبل على هذا الموضوع الحاسم.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا