في هذه الورقة، نبلغ عن نهجنا لمعالجة المهمة المشتركة ل Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وحقائق اللغة الألمانية. لقد قدمنا ثلاثة أشواط لكل فرقة فرعية بناء على مجموعات من ثلاث نماذج تستخدم من حيث أن تضمينات سياقية من نماذج اللغة المدربة مسبقا باستخدام SVM والأصنف في الشبكة العصبية. نحن ندرج نماذج اللغة اللغوية واللغة - مثل اللغة المعزنة - سواء مع وبدون ضبط جيد. نلاحظ أنه بالنسبة للتشغيل الذي قمنا بإرسال نماذج SVM إلى البيانات التدريبية وتأثر ذلك على طريقة التجميع (التصويت بالأغلبية البسيطة) من الفرمشط. يسجل النموذج أداء أقل في مجموعة الاختبار من مجموعة التدريب. استكشاف مسألة التجاوز الكشف عنها أنه بسبب وجود خطأ في خط الأنابيب، لم يتم تدريب المدافع الذي قدمناه على المجموعة الكاملة ولكن فقط في مجموعة تدريبية صغيرة. لذلك في هذه الورقة، نضمن أيضا النتائج التي نحصل عليها عند تدريبها على مجموعة التدريب الكامل والتي تثبت قوة الفرمز.
In this paper, we report on our approach to addressing the GermEval 2021 Shared Task on the Identification of Toxic, Engaging, and Fact-Claiming Comments for the German language. We submitted three runs for each subtask based on ensembles of three models each using contextual embeddings from pre-trained language models using SVM and neural-network-based classifiers. We include language-specific as well as language-agnostic language models -- both with and without fine-tuning. We observe that for the runs we submitted that the SVM models overfitted the training data and this affected the aggregation method (simple majority voting) of the ensembles. The model records a lower performance on the test set than on the training set. Exploring the issue of overfitting we uncovered that due to a bug in the pipeline the runs we submitted had not been trained on the full set but only on a small training set. Therefore in this paper we also include the results we get when trained on the full training set which demonstrate the power of ensembles.
References used
https://aclanthology.org/
The availability of language representations learned by large pretrained neural network models (such as BERT and ELECTRA) has led to improvements in many downstream Natural Language Processing tasks in recent years. Pretrained models usually differ i
We present the GermEval 2021 shared task on the identification of toxic, engaging, and fact-claiming comments. This shared task comprises three binary classification subtasks with the goal to identify: toxic comments, engaging comments, and comments
In this paper we present UPAppliedCL's contribution to the GermEval 2021 Shared Task. In particular, we participated in Subtasks 2 (Engaging Comment Classification) and 3 (Fact-Claiming Comment Classification). While acceptable results can be obtaine
This paper addresses the identification of toxic, engaging, and fact-claiming comments on social media. We used the dataset made available by the organizers of the GermEval2021 shared task containing over 3,000 manually annotated Facebook comments in
In this work, we present our approaches on the toxic comment classification task (subtask 1) of the GermEval 2021 Shared Task. For this binary task, we propose three models: a German BERT transformer model; a multilayer perceptron, which was first tr