تنبؤ نوع نقطة الفائدة (POI) هو مهمة استنتاج نوع المكان الذي تم فيه مشاركة مشاركة وسائل التواصل الاجتماعي. إن الاستنتاج من نوع POI مفيد للدراسات في العلوم الاجتماعية الحاسوبية بما في ذلك الاجتماع الاجتماعي، والجيولوجيوسيوس، والجغرافيا الثقافية، ولديه تطبيقات في تكنولوجيات الشبكات الجيولوجية مثل أنظمة التوصية والتصور. الجهود السابقة في التنبؤ بنوع POI التركيز فقط على النص، دون أخذ معلومات مرئية في الاعتبار. ولكن في الواقع، مجموعة متنوعة من الطرائق، فضلا عن علاقاتهم شبهية مع بعضها البعض، شكل التواصل والتفاعلات في وسائل التواصل الاجتماعي. تقدم هذه الورقة دراسة حول التنبؤ بنوع POI باستخدام معلومات متعددة الوسائط من النص والصور المتوفرة في وقت النشر. لهذا الغرض، فإننا نشعر بإثراء البيانات المتاحة حاليا لتنبؤ بنوع POI مع الصور التي ترافق الرسائل النصية. يتم استخراج الأسلوب المقترح لدينا المعلومات ذات الصلة من كل طريقة لالتقاط التفاعلات الفعالة بين النصوص والصورة تحقيق ماكرو F1 من 47.21 من 4 فئات تتفوق بشكل كبير على الطريقة التي من بين الفني للتنبؤ بنوع POI بناء على طرق النص فقط. أخيرا، نقدم تحليلا مفصلا لإلقاء الضوء على التفاعلات عبر الوسائط والقيود المتمثلة في أفضل نموذج أداء لدينا.
Point-of-interest (POI) type prediction is the task of inferring the type of a place from where a social media post was shared. Inferring a POI's type is useful for studies in computational social science including sociolinguistics, geosemiotics, and cultural geography, and has applications in geosocial networking technologies such as recommendation and visualization systems. Prior efforts in POI type prediction focus solely on text, without taking visual information into account. However in reality, the variety of modalities, as well as their semiotic relationships with one another, shape communication and interactions in social media. This paper presents a study on POI type prediction using multimodal information from text and images available at posting time. For that purpose, we enrich a currently available data set for POI type prediction with the images that accompany the text messages. Our proposed method extracts relevant information from each modality to effectively capture interactions between text and image achieving a macro F1 of 47.21 across 8 categories significantly outperforming the state-of-the-art method for POI type prediction based on text-only methods. Finally, we provide a detailed analysis to shed light on cross-modal interactions and the limitations of our best performing model.
المراجع المستخدمة
https://aclanthology.org/
أدت نماذج اللغة مثل GPT-2 بشكل جيد على إنشاء جمل سليمة نصنية لمهام إكمال تلقائي للنصوص.ومع ذلك، غالبا ما تتطلب هذه النماذج جهدا تدريبيا كبيرا للتكيف مع مجالات الكتابة المحددة (على سبيل المثال، الطبية).في هذه الورقة، نقترح استراتيجية تدريبية متوسطة لت
استخدم المتحكم ذو المنطق العائم بهدف ربط النظام الكهروضوئي PV بالشبكة الكهربائية عبر مبدل ثلاثي الطور مقاد (عاكس),إذ يقوم هذا المتحكم بملاحقة نقطة الاستطاعة العظمى وحقن أكبر استطاعة ممكنة من نظام PV إلى الشبكة؛ وذلك عن طريق تحديد زاوية القدح الواجب ت
المعجمات المعجمية ونماذج التنبؤ هي مكون رئيسي في العديد من أنظمة التوليف والتعرف على الكلام. نحن نعلم أن الكلمات ذات الصلة المورفولوجية تتبع عادة نمط ثابت من النطق والذين يمكن وصفها بالنماذج الخاصة باللغة. في هذا العمل، نستكشف مدى استخدام الشبكات الع
استعرضنا في هذا العمل بعض أهم أساليب التنبؤ بالمتسلسلات الزمنية وهي تحليل المتسلسلات الزمنية إلى مركباتها الأساسية (اتجاه عام، موسمية، دورية، عشوائية)، طرائق التمهيد الأسي، نماذج الانحدار الذاتي والمتوسطات المتحركة التكاملية، ثم استعرضنا عدة طرائق هج
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ