تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع تحديا للبحث المفتوح. لمعالجة هذه الفجوة، نقترح Eptisanship-Aware السياقي الموضوع (PACTE)، وهي طريقة للكشف تلقائيا عن الموضوعات المستقطبة من مصادر الأخبار الحزبية. على وجه التحديد، باستخدام نموذج لغة تم تصنيعه حول التعرف على حزب المقالات الإخبارية، نمثل أيديولوجية لجنة أخبار حول موضوع من خلال تضمين موضوع Corpus-contentralized وقياس الاستقطاب باستخدام مسافة جيبوز. نحن نطبق طريقنا إلى مجموعة بيانات من المقالات الإخبارية حول جائحة CovID-19. تظهر تجارب واسعة على مصادر وأخبار مختلفة ومواضيع فعالية طريقتنا لالتقاط الاستقطاب الموضعي، كما هو موضح بفعاليتها لاسترجاع أكثر الموضوعات المستقطبة.
Growing polarization of the news media has been blamed for fanning disagreement, controversy and even violence. Early identification of polarized topics is thus an urgent matter that can help mitigate conflict. However, accurate measurement of topic-wise polarization is still an open research challenge. To address this gap, we propose Partisanship-aware Contextualized Topic Embeddings (PaCTE), a method to automatically detect polarized topics from partisan news sources. Specifically, utilizing a language model that has been finetuned on recognizing partisanship of the news articles, we represent the ideology of a news corpus on a topic by corpus-contextualized topic embedding and measure the polarization using cosine distance. We apply our method to a dataset of news articles about the COVID-19 pandemic. Extensive experiments on different news sources and topics demonstrate the efficacy of our method to capture topical polarization, as indicated by its effectiveness of retrieving the most polarized topics.
المراجع المستخدمة
https://aclanthology.org/
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت
أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الور
مع الصحة العقلية كملم مشكلة في NLP، يدور الجزء الأكبر من الأدب المعاصر حول بناء نماذج تنبؤات أمرية أفضل. كان البحث التركيز على تحديد مجموعات المناقشة في مجتمعات الصحة العقلية عبر الإنترنت محدودا نسبيا. علاوة على ذلك، نظرا لأن المنهجيات الأساسية المست
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على