ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن الموضوعات المستقطبة باستخدام Attisanship-Aware السياق الموضوعات

Detecting Polarized Topics Using Partisanship-aware Contextualized Topic Embeddings

302   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم إلقاء اللوم على الاستقطاب المتزايد لوسائل الإعلام الإخبارية بسبب عدم الخلاف والجدل وحتى العنف. وبالتالي فإن التعرف المبكر للمواضيع المستقطبة هو مسألة عاجلة يمكن أن تساعد في تخفيف الصراع. ومع ذلك، لا يزال القياس الدقيق للاستقطاب الحكيم في الموضوع تحديا للبحث المفتوح. لمعالجة هذه الفجوة، نقترح Eptisanship-Aware السياقي الموضوع (PACTE)، وهي طريقة للكشف تلقائيا عن الموضوعات المستقطبة من مصادر الأخبار الحزبية. على وجه التحديد، باستخدام نموذج لغة تم تصنيعه حول التعرف على حزب المقالات الإخبارية، نمثل أيديولوجية لجنة أخبار حول موضوع من خلال تضمين موضوع Corpus-contentralized وقياس الاستقطاب باستخدام مسافة جيبوز. نحن نطبق طريقنا إلى مجموعة بيانات من المقالات الإخبارية حول جائحة CovID-19. تظهر تجارب واسعة على مصادر وأخبار مختلفة ومواضيع فعالية طريقتنا لالتقاط الاستقطاب الموضعي، كما هو موضح بفعاليتها لاسترجاع أكثر الموضوعات المستقطبة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.
أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الور قة، نقترح طريقة لتعلم تمثيلات الكلمات التي تتبع هذه الاستراتيجية الأساسية، ولكنها تختلف عن تضمين الكلمة القياسية بطريقتين مهمتين. أولا، نستفصل من نماذج اللغة السياقية (CLMS) بدلا من أكياس من مجاهد Word لتشفير السياقات. ثانيا، بدلا من تعلم كلمة متجه كلمة مباشرة، نستخدم نموذجا موضوعا لتقسيم السياقات التي تظهر الكلمات التي تظهر فيها الكلمات، ثم تعلم ناقلات موضوعية مختلفة لكل كلمة. أخيرا، نستخدم إشارة إشراف خاصة بمهام مهمة لإجراء مجموعة ناعمة من المتجهات الناتجة. نظرا لأن هذه الاستراتيجية البسيطة تؤدي إلى ناقلات Word عالية الجودة، والتي تعد أكثر تنبؤا بالخصائص الدلالية أكثر من Adgeddings والاستراتيجيات القائمة على CLM.
مع الصحة العقلية كملم مشكلة في NLP، يدور الجزء الأكبر من الأدب المعاصر حول بناء نماذج تنبؤات أمرية أفضل. كان البحث التركيز على تحديد مجموعات المناقشة في مجتمعات الصحة العقلية عبر الإنترنت محدودا نسبيا. علاوة على ذلك، نظرا لأن المنهجيات الأساسية المست خدمة في هذه الدراسات تتفق بشكل أساسي مع نماذج تعليم الآلة التقليدية والأساليب الإحصائية، فإن نطاق إدخال تمثيلات الكلمات السياقية لموضوع استخراج الموضوع والشيء من المجتمعات الصحية العقلية عبر الإنترنت مفتوحة. وهكذا، في هذا البحث، نقترح تمثيل موضوعي عميق مدعوم، وهي تقنية تمثيل بيانات رواية تستخدم ABLENCODERS لجمع بين المدينات السياقية العميقة مع المعلومات الموضعية، وتوليد تمثيلات قوية للتجميع النصي. التحقيق في الخطاب Reddit على اضطراب ما بعد الصدمة الاضطرابات (PTSD) واضطراب الإجهاد بعد الصدمة المعقدة (C-PTSD)، ونحن نرفض المجموعات المواضيعية التي تمثل المواضيع والسمات الكامنة التي تمت مناقشتها في Subretits R / PTSD و R / CPTSD. علاوة على ذلك، نقدم أيضا تحليلا نوعيا وتوصيف كل كتلة، وكشف مواضيع الخطاب السائدة.
إن اكتشاف موضوع الناشئ البطيء هو مهمة بين اكتشاف الحدث، حيث نكمل السلوكيات من الكلمات المختلفة في فترة قصيرة من الزمن، وتطور اللغة، حيث نراقب تطورها الطويل الأجل.في هذا العمل، نتعامل مع مشكلة الكشف المبكر عن المواضيع الجديدة المبكرة.تحقيقا لهذه الغاي ة، نجمع أدلة على إشارات ضعيفة على مستوى الكلمة.نقترح مراقبة سلوك تمثيل الكلمات في مساحة تضمين واستخدام إحدى خصائصها الهندسية لتوصيف ظهور المواضيع.نظرا لأن التقييم يصعب عادة على هذا النوع من المهمة، فإننا نقدم إطارا للتقييم الكمي وإظهار النتائج الإيجابية التي تتفوق على الأساليب الحديثة من بين الفن.يتم تقييم طريقتنا على مجموعة بيانات عامة للصحافة والمقالات العلمية.
تصف هذه الورقة نموذجا مدمجا وفعالا لاسترجاع مرور الكمون المنخفض في البحث عن المحادثة بناء على تمثيلات كثيفة علمية. قبل عملنا، يستخدم النهج الواحد من بين الفنون خط أنابيب متعدد المراحل يشتمل على وحدات إعادة صياغة استعلام محادثة واسترجاع المعلومات. على الرغم من فعاليته، غالبا ما يتضمن هذا الخط الأنابيب نماذج عصبية متعددة تتطلب أوقات الاستدلال الطويلة. بالإضافة إلى ذلك، تحسين كل وحدة بشكل مستقل يتجاهل التبعيات بينهم. لمعالجة هذه العيوب، نقترح دمج إعادة صياغة استعلام المحادثة مباشرة في نموذج استرجاع كثيف. للمساعدة في هذا الهدف، نقوم بإنشاء مجموعة بيانات مع ملصقات ذات صلة زائفة للبحث عن المحادثة للتغلب على عدم وجود بيانات تدريب واستكشاف استراتيجيات تدريب مختلفة. نوضح أن نموذجنا يعيد كتابة استعلامات المحادثة بشكل فعال كتمثيلات كثيفة في البحث عن المحادثة والفتح عن نطاق البيانات. أخيرا، بعد مراعاة أن طرازنا يتعلم ضبط نموذج L2 من Arquer Token Ageddings، فإننا نستفيد من هذه الخاصية لاسترجاع الهجين ودعم تحليل الأخطاء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا