إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات المستقلة من اللغة. في الآونة الأخيرة، يمكن أيضا تدريب نماذج اللغة القائمة على المحولات مثل Bert مسبقا على لغات متعددة، مما يجعلها مرشحا بديهيا للصفوفات المصنوعة من اللغة عبر اللغات التي لم يتم استخدامها لهذه المهمة بعد. نقوم بإجراء تجارب مكثفة لقياس أداء ثلاث نهج مختلفة لتجربة إسناد التأليف الصغير باللغة الصغيرة: (1) استخدام الميزات المستقلة للغات مع نماذج التصنيف التقليدية (2) باستخدام نماذج لغة مدربة مسبقا متعددة اللغات، و (3) استخدام الترجمة الآلية للسماح بتصنيف اللغة الفردي. بالنسبة للميزات المستقلة باللغة، فإننا نستخدم ميزات النحوية العالمية مثل علامات جزء من الكلام ورسم الرسوم البيانية التبعية، ومبرز متعدد اللغات كنموذج لغة مدرب مسبقا. نحن نستخدم تعليقات البيانات الاجتماعية الصغيرة على نطاق واسع، مما يعكس بشكل وثيق السيناريوهات العملية. نظهر أن تطبيق الترجمة الآلية يزيد بشكل كبير من أداء جميع الأساليب تقريبا، وأن الميزات الأساسية في تركيبة مع خطوة الترجمة تحقق أفضل أداء التصنيف الكلي. على وجه الخصوص، نوضح أن نماذج اللغة المدربة مسبقا متفوقة من قبل النماذج التقليدية في مشاكل إسناد التأليف الصغيرة على نطاق صغير لكل مزيج لغة تم تحليلها في هذه الورقة.
Cross-language authorship attribution is the challenging task of classifying documents by bilingual authors where the training documents are written in a different language than the evaluation documents. Traditional solutions rely on either translation to enable the use of single-language features, or language-independent feature extraction methods. More recently, transformer-based language models like BERT can also be pre-trained on multiple languages, making them intuitive candidates for cross-language classifiers which have not been used for this task yet. We perform extensive experiments to benchmark the performance of three different approaches to a smallscale cross-language authorship attribution experiment: (1) using language-independent features with traditional classification models, (2) using multilingual pre-trained language models, and (3) using machine translation to allow single-language classification. For the language-independent features, we utilize universal syntactic features like part-of-speech tags and dependency graphs, and multilingual BERT as a pre-trained language model. We use a small-scale social media comments dataset, closely reflecting practical scenarios. We show that applying machine translation drastically increases the performance of almost all approaches, and that the syntactic features in combination with the translation step achieve the best overall classification performance. In particular, we demonstrate that pre-trained language models are outperformed by traditional models in small scale authorship attribution problems for every language combination analyzed in this paper.
References used
https://aclanthology.org/
Online social media platforms increasingly rely on Natural Language Processing (NLP) techniques to detect abusive content at scale in order to mitigate the harms it causes to their users. However, these techniques suffer from various sampling and ass
Abstract Much previous work characterizing language variation across Internet social groups has focused on the types of words used by these groups. We extend this type of study by employing BERT to characterize variation in the senses of words as wel
Abusive language is a growing phenomenon on social media platforms. Its effects can reach beyond the online context, contributing to mental or emotional stress on users. Automatic tools for detecting abuse can alleviate the issue. In practice, develo
Social media texts such as blog posts, comments, and tweets often contain offensive languages including racial hate speech comments, personal attacks, and sexual harassment. Detecting inappropriate use of language is, therefore, of utmost importance
We present machine learning classifiers to automatically identify COVID-19 misinformation on social media in three languages: English, Bulgarian, and Arabic. We compared 4 multitask learning models for this task and found that a model trained with En