في هذا العمل، نصف نهجنا معالجة مهمة تحديد الموقع الجغرافي لوسائل التواصل الاجتماعي المميز في حملة التقييم الفاديم 2021. نحن نركز على المراكب الفرعية الثانية، والتي تعتمد على مجموعة بيانات تشكلت حوالي 30 ألف جود ألماني سويسري. مهمة تحديد الهياكل هي حول التنبؤ بدقة خطوط الطول والعرض لعينات الاختبار. نحن نؤيد المهمة باعتبارها مشكلة في الانحدار المزدوج، وتستخدم المتعلم Meta XGBOOST مع القوة المشتركة لمجموعة متنوعة من نهج التعلم الآلي للتنبؤ بكل من خطوط الطول والعرض. تتراوح النماذج المدرجة في مجموعة فرقة لدينا من تقنيات الانحدار البسيطة، مثل الانحدار من متجه الدعم، إلى النماذج العصبية العميقة، مثل الشبكة العصبية المختلطة ومحول عصبي. لتقليل خطأ التنبؤ، نتعامل مع المشكلة من بعض وجهات نظر مختلفة والنظر في أنواع مختلفة من الميزات، من حرف منخفض المستوى N-Gram إلى Armbeddings رفيعة المستوى. أسفرت فرقة XGBoost عن الجمع بين قوة الطرق المذكورة أعلاه تحقق مسافة 23.6 كم على بيانات الاختبار، والتي تضعنا في المركز الثالث في الترتيب، في اختلاف قدرها 6.05 كم و 2.9 كم من التقديمات الأولى والأماكن الثانية، على التوالي.
In this work, we describe our approach addressing the Social Media Variety Geolocation task featured in the 2021 VarDial Evaluation Campaign. We focus on the second subtask, which is based on a data set formed of approximately 30 thousand Swiss German Jodels. The dialect identification task is about accurately predicting the latitude and longitude of test samples. We frame the task as a double regression problem, employing an XGBoost meta-learner with the combined power of a variety of machine learning approaches to predict both latitude and longitude. The models included in our ensemble range from simple regression techniques, such as Support Vector Regression, to deep neural models, such as a hybrid neural network and a neural transformer. To minimize the prediction error, we approach the problem from a few different perspectives and consider various types of features, from low-level character n-grams to high-level BERT embeddings. The XGBoost ensemble resulted from combining the power of the aforementioned methods achieves a median distance of 23.6 km on the test data, which places us on the third place in the ranking, at a difference of 6.05 km and 2.9 km from the submissions on the first and second places, respectively.
المراجع المستخدمة
https://aclanthology.org/
أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات ال
نفذت التجربة المخبرية على ذكور الفئران البيضاء السويسرية لتقييم التعرض المبكر لمبيد الدايمثويت على الفعالية التكاثرية. قسمت الذكور عشوائياً إلى ثلاثة مجاميع متساوية، احتوت كل مجموعة على 12 فأر، و تم حقن المجموعة الأولى داخل التجويف الصفاقي بالماء ال
من الناحية التاريخية، يتم إهمال اللغة القانونية الألمانية على نطاق واسع في أبحاث NLP، خاصة في أنظمة التلخيص، لأن معظمها يعتمد على مقالات الصحف الإنجليزية. في هذه الورقة، نقترح مهمة تلخيص أحكام المحكمة الألمانية. نظرا لتعقيدها وطولها، فمن الأهمية بمكا
يشكل الاستخدام الواسع للإنترنت والنشر السريع للمعلومات التحدي المتمثل في تحديد صحة محتواه. اكتشف الكشف عن الموقف، الذي تعد مهمة التنبؤ بموقف نص فيما يتعلق بهدف محدد (سؤال المطالبة أو النقاش)، لتحديد صحة المعلومات في مهام مثل تصنيف الشائعات والكشف عن
يستند هذا البحث إلى ركيزة أساسية، هي تتبع التطور التاريخي للعلاقات الألمانية - السعودية في حقبة ما قبل الحرب العالمية الثانية، و ركزت الدراسة على عرض تاريخي لمجمل العلاقات الأوروبية – العربية في ضوء الأحداث التاريخية المهمة التي وقعت في مرحلة ما بين