يمكن أن يكون تعيين مواقع المستخدمين إلى البلدان مفيدا للعديد من التطبيقات مثل تحديد الهدوء ومجموعات المؤلف ونظام التوصية وما إلى ذلك. يسمح Twitter للمستخدمين بإعلان مواقعهم كنصا مجانيا، وغالبا ما تكون هذه المواقع المعلنة من المستخدم صاخبة وصعبة للغاية.في هذه الورقة، نقدم أكبر مجموعة بيانات المسمى يدويا لعودة مواقع المستخدمين على Twitter العربي إلى بلدانهم المقابلة.نبني نماذج تعليمية فعالة من الآلات التي يمكنها أتمتة هذا التعيين كفاءة أفضل بكثير مقارنة بمكتبات مثل Geopy.نظهر أيضا أن DataSet لدينا أكثر فعالية من البيانات المستخرجة من قاعدة بيانات Geonames الجغرافية في هذه المهمة حيث يغطي الأخير المواقع المكتوبة بطرق رسمية فقط.
Mapping user locations to countries can be useful for many applications such as dialect identification, author profiling, recommendation system, etc. Twitter allows users to declare their locations as free text, and these user-declared locations are often noisy and hard to decipher automatically. In this paper, we present the largest manually labeled dataset for mapping user locations on Arabic Twitter to their corresponding countries. We build effective machine learning models that can automate this mapping with significantly better efficiency compared to libraries such as geopy. We also show that our dataset is more effective than data extracted from GeoNames geographical database in this task as the latter covers only locations written in formal ways.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نستكشف مقاربة عصبية بسيطة للغاية لتعيين تقويم الإملاءات إلى النسخ الصوتي في سياق منخفض الموارد.الفكرة الأساسية هي البدء من نظام أساسي وتركيز جميع الجهود بشأن تكبير البيانات.سوف نرى أن بعض التقنيات تعمل، ولكن البعض الآخر لا.
غالبا ما تكون دراسات العلوم الاجتماعية الحاسوبية تحليل المحتوى في كثير من الأحيان داخل التركيبة السكانية القياسية.نظرا لأن التركيبة السكانية غير متوفرة على العديد من منصات وسائل التواصل الاجتماعي (E.G. Twitter)، فقد استنتجت الدراسات العديد من الدراسا
تقارير الورقة عن المنهجية والنتائج النهائية لرسم خرائط مركدة واسعة النطاق بين plwordnet و princeton wordnet.يتم وصف إجراءات رسم الخرائط اليدوية والمخصصة نصف التلقائي بالإضافة إلى أنواع العلاقات المشترية للأسماء والأفعال والصفات والأحوال.كما يتم توفير إحصاءات جميع أنواع العلاقات المشترية.
تعتمد أنظمة متعددة اللغات متعددة اللغات على المفردات المشتركة التي تغطي جميع اللغات التي تغطي بما فيه الكفاية. تحقيقا لهذه الغاية، فإن النهج البسيط والمستعمل بشكل متكرر يستفيد من مفهليات الكلمات الفرعية التي تم إنشاؤها بشكل مشترك على عدة لغات. نحن نف
أسماء ومعرفات المراقبة المنطقية (LOINC) هي مجموعة قياسية من الرموز التي تمكن الأطباء من التواصل حول الاختبارات الطبية.تعتمد المختبرات على Loinc لتحديد ما تختبر طلبات الطبيب للمريض.ومع ذلك، غالبا ما يستخدم الأطباء رموز مخصصة خاصة بالموقع في أنظمة السج