أصبحت بيانات Twitter مثبتة كمصدر قيم للبيانات لمختلف سيناريوهات التطبيق في السنوات الماضية.بالنسبة للعديد من هذه التطبيقات، من الضروري معرفة المكان الذي تم إرسال مشاركات Twitter (تغريدات) من أو الموقع الذي يشير إليه.كثيرا ما استخدم الباحثون الإحداثيات الدقيقة المقدمة في نسبة مئوية صغيرة من التغريدات، لكن Twitter أزال الخيار لمشاركة هذه الإحداثيات في منتصف عام 2019.علاوة على ذلك، هناك سبب للشك في أن حصة كبيرة من الإحداثيات المقدمة لم تتوافق مع إحداثيات GPS للمستخدم حتى قبل ذلك.في هذه الورقة، نوضح الوضع وتغيير السياسة لعام 2019 وإلقاء الضوء على الخيارات المختلفة التي لا تزال تحصل على معلومات الموقع من التغريدات.نحن نقدم إحصاءات الاستخدام بما في ذلك التغييرات مع مرور الوقت، وتحليل ما إن إزالة الإحداثيات الدقيقة يعني لمختلف مهام البحث الشائعة التي يتم تنفيذها مع بيانات Twitter.أخيرا، نقدم اقتراحات للأبحاث المستقبلية التي تتطلب التغريدات الجغرافية.
Twitter data has become established as a valuable source of data for various application scenarios in the past years. For many such applications, it is necessary to know where Twitter posts (tweets) were sent from or what location they refer to. Researchers have frequently used exact coordinates provided in a small percentage of tweets, but Twitter removed the option to share these coordinates in mid-2019. Moreover, there is reason to suspect that a large share of the provided coordinates did not correspond to GPS coordinates of the user even before that. In this paper, we explain the situation and the 2019 policy change and shed light on the various options of still obtaining location information from tweets. We provide usage statistics including changes over time, and analyze what the removal of exact coordinates means for various common research tasks performed with Twitter data. Finally, we make suggestions for future research requiring geolocated tweets.
المراجع المستخدمة
https://aclanthology.org/
قمنا بإحضار البيانات من صفحات مواقع التواصل الاجتماعي تويتر، ثم عملنا
عليها عملية تنظيف و تجهيز للنص من أجل عملية التصنيف فالنصوص المسترجعة
تحتوي على الكثير من الضجيج و المعلومات غير المفيدة المتعلقة بعملية تحليل الآراء
مثل الاعلانات و الروابط و ع
جذبت الكشف عن المشاعر من وظائف وسائل التواصل الاجتماعي اهتماما ملحوظا من مجتمع معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة.تختلف طرق الحصول على ملصقات ذهبية لتدريب واختبار أنظمة الكشف عن المشاعر التلقائية بشكل كبير من دراسة واحدة إلى أخرى، وتشكل م
توفر منصات الوسائط الاجتماعية (SM) مثل Twitter كميات كبيرة من البيانات في الوقت الفعلي والتي يمكن الاستفادة منها أثناء حالات الطوارئ الجماعية. تتطلب تطوير أدوات لدعم المجتمعات المتأثرة بالأزمات مجموعات البيانات المتاحة، والتي غالبا ما تكون موجودة لغا
يستلزم الكشف عن الموقف (SD) تصنيف معنويات نص تجاه هدف معين، وهي مهمة فرعية ذات صلة لتحليل تعدين الرأي والوسائط الإعلامية الاجتماعية.وقد استكشفت الأعمال الحديثة تسريب المعرفة تكمل الكفاءة اللغوية والمعرفة الكامنة عن النماذج اللغوية الكبيرة المدربة مسب
تهدف آلية الخروج المبكر إلى تسريع سرعة الاستدلال من نماذج اللغة المدربة مسبقا على نطاق واسع. الفكرة الأساسية هي الخروج مبكرا دون المرور من خلال كل طبقات الاستدلال في مرحلة الاستدلال. لإجراء تنبؤات دقيقة لمهام المصب، ينبغي النظر في المعلومات اللغوية ا