في هذه الورقة، نبلغ عن نهجنا لمعالجة المهمة المشتركة ل Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وحقائق اللغة الألمانية. لقد قدمنا ثلاثة أشواط لكل فرقة فرعية بناء على مجموعات من ثلاث نماذج تستخدم من حيث أن تضمينات سياقية من نماذج اللغة المدربة مسبقا باستخدام SVM والأصنف في الشبكة العصبية. نحن ندرج نماذج اللغة اللغوية واللغة - مثل اللغة المعزنة - سواء مع وبدون ضبط جيد. نلاحظ أنه بالنسبة للتشغيل الذي قمنا بإرسال نماذج SVM إلى البيانات التدريبية وتأثر ذلك على طريقة التجميع (التصويت بالأغلبية البسيطة) من الفرمشط. يسجل النموذج أداء أقل في مجموعة الاختبار من مجموعة التدريب. استكشاف مسألة التجاوز الكشف عنها أنه بسبب وجود خطأ في خط الأنابيب، لم يتم تدريب المدافع الذي قدمناه على المجموعة الكاملة ولكن فقط في مجموعة تدريبية صغيرة. لذلك في هذه الورقة، نضمن أيضا النتائج التي نحصل عليها عند تدريبها على مجموعة التدريب الكامل والتي تثبت قوة الفرمز.
In this paper, we report on our approach to addressing the GermEval 2021 Shared Task on the Identification of Toxic, Engaging, and Fact-Claiming Comments for the German language. We submitted three runs for each subtask based on ensembles of three models each using contextual embeddings from pre-trained language models using SVM and neural-network-based classifiers. We include language-specific as well as language-agnostic language models -- both with and without fine-tuning. We observe that for the runs we submitted that the SVM models overfitted the training data and this affected the aggregation method (simple majority voting) of the ensembles. The model records a lower performance on the test set than on the training set. Exploring the issue of overfitting we uncovered that due to a bug in the pipeline the runs we submitted had not been trained on the full set but only on a small training set. Therefore in this paper we also include the results we get when trained on the full training set which demonstrate the power of ensembles.
المراجع المستخدمة
https://aclanthology.org/
أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات ال
نقدم Germeval 2021 المهمة المشتركة بشأن تحديد تعليقات السامة والإخراجية والحقائق. تضم هذه المهمة المشتركة ثلاث مجموعات فرعية تصنيف ثنائية بهدف تحديد: تعليقات سامة، وإشراك التعليقات، والتعليقات التي تشمل مؤشرات على الحاجة إلى فحص الحقائق، يشار إليها ه
في هذه الورقة، نقدم مساهمة UPAPPLIEDCL في مهمة جيرفال 2021 المشتركة.على وجه الخصوص، شاركنا في SubTasks 2 (تصنيف التعليق التجاري) و 3 (تصنيف التعليق الذي يدعي الحقائق).على الرغم من أن النتائج المقبولة يمكن الحصول عليها باستخدام أجهزة UNIGRAMS أو الميز
تتناول هذه الورقة تحديد تعليقات سامة ومشاركة وتحقيق الحقائق على وسائل التواصل الاجتماعي.استخدمنا مجموعة البيانات المتاحة من قبل منظمي المهمة المشتركة Germeval2021 التي تحتوي على أكثر من 3000 تعليقات Facebook المزروعة يدويا باللغة الألمانية.بالنظر إلى
في هذا العمل، نقدم نهجنا على مهمة تصنيف التعليقات السامة (الفرعية 1) من المهمة المشتركة لجيرفال 2021.لهذه المهمة الثنائية، نقترح ثلاث نماذج: نموذج محول بيرت ألماني؛Perceptron متعدد الطبقات، التي تم تدريبها لأول مرة بالتوازي على الإدخال النصي و 14 ميز