في هذا العمل، نصف نهجنا معالجة مهمة تحديد الموقع الجغرافي لوسائل التواصل الاجتماعي المميز في حملة التقييم الفاديم 2021. نحن نركز على المراكب الفرعية الثانية، والتي تعتمد على مجموعة بيانات تشكلت حوالي 30 ألف جود ألماني سويسري. مهمة تحديد الهياكل هي حول التنبؤ بدقة خطوط الطول والعرض لعينات الاختبار. نحن نؤيد المهمة باعتبارها مشكلة في الانحدار المزدوج، وتستخدم المتعلم Meta XGBOOST مع القوة المشتركة لمجموعة متنوعة من نهج التعلم الآلي للتنبؤ بكل من خطوط الطول والعرض. تتراوح النماذج المدرجة في مجموعة فرقة لدينا من تقنيات الانحدار البسيطة، مثل الانحدار من متجه الدعم، إلى النماذج العصبية العميقة، مثل الشبكة العصبية المختلطة ومحول عصبي. لتقليل خطأ التنبؤ، نتعامل مع المشكلة من بعض وجهات نظر مختلفة والنظر في أنواع مختلفة من الميزات، من حرف منخفض المستوى N-Gram إلى Armbeddings رفيعة المستوى. أسفرت فرقة XGBoost عن الجمع بين قوة الطرق المذكورة أعلاه تحقق مسافة 23.6 كم على بيانات الاختبار، والتي تضعنا في المركز الثالث في الترتيب، في اختلاف قدرها 6.05 كم و 2.9 كم من التقديمات الأولى والأماكن الثانية، على التوالي.
In this work, we describe our approach addressing the Social Media Variety Geolocation task featured in the 2021 VarDial Evaluation Campaign. We focus on the second subtask, which is based on a data set formed of approximately 30 thousand Swiss German Jodels. The dialect identification task is about accurately predicting the latitude and longitude of test samples. We frame the task as a double regression problem, employing an XGBoost meta-learner with the combined power of a variety of machine learning approaches to predict both latitude and longitude. The models included in our ensemble range from simple regression techniques, such as Support Vector Regression, to deep neural models, such as a hybrid neural network and a neural transformer. To minimize the prediction error, we approach the problem from a few different perspectives and consider various types of features, from low-level character n-grams to high-level BERT embeddings. The XGBoost ensemble resulted from combining the power of the aforementioned methods achieves a median distance of 23.6 km on the test data, which places us on the third place in the ranking, at a difference of 6.05 km and 2.9 km from the submissions on the first and second places, respectively.
References used
https://aclanthology.org/
The availability of language representations learned by large pretrained neural network models (such as BERT and ELECTRA) has led to improvements in many downstream Natural Language Processing tasks in recent years. Pretrained models usually differ i
This study was done to evaluate reproductive potential of male mice following
early exposure to dimethoate. Thirty-six Swiss albino male mice were divided
into three groups of twelve mice each: first group injected intraperitoneally with
distilled
Historically speaking, the German legal language is widely neglected in NLP research, especially in summarization systems, as most of them are based on English newspaper articles. In this paper, we propose the task of automatic summarization of Germa
The widespread use of the Internet and the rapid dissemination of information poses the challenge of identifying the veracity of its content. Stance detection, which is the task of predicting the position of a text in regard to a specific target (e.g
This research mainly is based on one basic topic, namely, the
observation of German-Saudi relations in the period prior to the Second
World War. This study focuses on brief historical presentation of Arab-
European relation in the light of the imp