ترغب بنشر مسار تعليمي؟ اضغط هنا

يستلزم الكشف عن الموقف (SD) تصنيف معنويات نص تجاه هدف معين، وهي مهمة فرعية ذات صلة لتحليل تعدين الرأي والوسائط الإعلامية الاجتماعية.وقد استكشفت الأعمال الحديثة تسريب المعرفة تكمل الكفاءة اللغوية والمعرفة الكامنة عن النماذج اللغوية الكبيرة المدربة مسب قا مع الرسوم البيانية المعرفة المهيكلة (KGS)، ومع ذلك فقد طبقت القليل من الأعمال هذه الأساليب إلى مهمة SD.في هذا العمل، نقوم أولا بتحقيق المعرفة ذات الصلة بالموقف على النماذج المدربة المستندة مسبقا للمحولات في إعداد تسديدة صفرية، مما يدل على المعرفة الحقيقية الكامنة في النماذج حول أهداف SD وحساستها للسياق.ثم ندرب وتقييم نماذج الكشف عن الموقف المخصب على المعرفة على مجموعة بيانات لموقف Twitter، وتحقيق أداء حديثة على حد سواء.
أصبحت بيانات Twitter مثبتة كمصدر قيم للبيانات لمختلف سيناريوهات التطبيق في السنوات الماضية.بالنسبة للعديد من هذه التطبيقات، من الضروري معرفة المكان الذي تم إرسال مشاركات Twitter (تغريدات) من أو الموقع الذي يشير إليه.كثيرا ما استخدم الباحثون الإحداثيا ت الدقيقة المقدمة في نسبة مئوية صغيرة من التغريدات، لكن Twitter أزال الخيار لمشاركة هذه الإحداثيات في منتصف عام 2019.علاوة على ذلك، هناك سبب للشك في أن حصة كبيرة من الإحداثيات المقدمة لم تتوافق مع إحداثيات GPS للمستخدم حتى قبل ذلك.في هذه الورقة، نوضح الوضع وتغيير السياسة لعام 2019 وإلقاء الضوء على الخيارات المختلفة التي لا تزال تحصل على معلومات الموقع من التغريدات.نحن نقدم إحصاءات الاستخدام بما في ذلك التغييرات مع مرور الوقت، وتحليل ما إن إزالة الإحداثيات الدقيقة يعني لمختلف مهام البحث الشائعة التي يتم تنفيذها مع بيانات Twitter.أخيرا، نقدم اقتراحات للأبحاث المستقبلية التي تتطلب التغريدات الجغرافية.
تصف هذه الورقة عملية التوضيحية لبيانات لغة مسيئة محددة لرومانية على وسائل التواصل الاجتماعي.لتسهيل البحوث القابلة للمقارنة متعددة اللغات حول اللغة الهجومية، تتبع المبادئ التوجيهية التوضيحي بعض جهود التوضيح الحديثة لغات أخرى.يحتوي Corpus النهائي على 5 000 وظيفة مدونات دقيقة مشروح من عدد كبير من المحن المعلقين المتطوعين.إن اتفاقية المعلن والتمييز التلقائي الأولي الناتج نواجهها تتماشى مع جهود التوضيحية السابقة.
في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا لية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.
تصف هذه الورقة تقديم فريقنا من أجل تعدين وسائل التواصل الاجتماعي للصحة (SMM4H) 2021 المهمة المشتركة.شاركنا في ثلاث مجموعات فرعية: تصنيف تأثير المخدرات السلبي، والتقرير الذاتي Covid-19، وأعراض Covid-19.يعتمد نظامنا على نموذج Bert المدرب مسبقا على النص الخاص بالمجال.بالإضافة إلى ذلك، نقوم بإجراء تنظيف البيانات والتكبير، بالإضافة إلى تحسين فرط التنفس وفرقة نموذجية لتعزيز أداء بيرت.حققنا الرتبة الأولى في كل من تأثيرات المخدرات الضارة ومهام التقرير الذاتي CovID-19.
في هذه الورقة، نصف إدخال نظامنا للمهمة المشتركة 8 في SMM4H-2021، وهو في التصنيف التلقائي لمرورات سرطان الثدي التي تم الإبلاغ عنها على Twitter.في نظامنا، نستخدم نهج ضبط طراز بلغة قائمة على المحولات لتحديد التغريدات تلقائيا في فئة التقارير الذاتية.علاو ة على ذلك، فإننا نضمن ضبطا غرامة مقيم تدريجيا لتحسين متانة النموذج العام.حقق نظامنا درجة F1 من 0.8625 على مجموعة التطوير و 0.8501 في مجموعة الاختبار في مهمة مشتركة - 8 من SMM4H-2021.
غالبا ما تكون دراسات العلوم الاجتماعية الحاسوبية تحليل المحتوى في كثير من الأحيان داخل التركيبة السكانية القياسية.نظرا لأن التركيبة السكانية غير متوفرة على العديد من منصات وسائل التواصل الاجتماعي (E.G. Twitter)، فقد استنتجت الدراسات العديد من الدراسا ت التركيبة السكانية تلقائيا.على الرغم من العديد من الدراسات التي تقدم أداء مفهوم العرق والعرق، لا يزال تدريب النظم العملية بعيد المنال لأن هناك بعض البيانات المشروح.مجموعات البيانات الحالية صغيرة وغير دقيقة، أو تفشل في تغطية المجموعات العرقية والأعرقية الأربعة الأكثر شيوعا في الولايات المتحدة.نقدم طريقة لتحديد التقارير الذاتية عن العرق والعرق من أوصاف الملف الشخصي Twitter.على الرغم من ضجيج الإشراف الآلي، فإن مجموعات بيانات التقرير الذاتي لدينا تمكن التحسينات في أداء التصنيف على بيانات مسح التقارير الذاتية القياسية الذهبية.والنتيجة هي طريقة استنساخ لإنشاء موارد تدريبية واسعة النطاق للسباق والعرق.
كانت الانتخابات الأمريكية 2020، أكثر من أي وقت مضى، تتميز بحملات وسائل التواصل الاجتماعي والاتهامات المتبادلة. نحن نحقق في هذه الورقة إذا كان هذا يتجلى أيضا في الاتصالات عبر الإنترنت من مؤيدي المرشحين بايدن وترامب، من خلال نطق التواصل البغيض والهجومي . نقوم بصياغة مهمة توضيحية، نمتلك فيها مهام الكشف عن الكلام والموقف البغيضة / الهجومية، والاحليق على 3000 تغريدات من فترة الحملة، إذا أعربوا عن موقف معين تجاه المرشح. بجانب الطبقات المنشأة المتميزة من مواتية وضد، نقوم بإضافة مواقف مختلطة ومحايدة وأوضح أيضا إذا تم ذكر مرشح تعبير الرأي. علاوة على ذلك، نحن نلاحظ إذا كانت سقسقة مكتوبة بأسلوب مسيء. وهذا يتيح لنا أن نحلل إذا كان مؤيدو جو بايدن والحزب الديمقراطي يتواصلون بشكل مختلف عن أنصار دونالد ترامب والحزب الجمهوري. يوضح مصنف Bert Baseline أن الكشف إذا كان شخص ما مؤيد للمرشح يمكن إجراء جودة عالية ( (.79 F1 و .64 F1، على التوالي). لا يزال الكشف التلقائي لخطاب الكراهية / الهجومية تحديا (مع .53 F1). تتمتع كوربوس لدينا علنا ​​وتشكل مصدرا جديدا للنمذجة الحسابية للغة الهجومية قيد النظر في المواقف.
الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف .نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.
في هذه الورقة، نقدم شائعات ARCOV19، ومجموعة بيانات عربية Covid-19 Twitter للكشف عن المعلومات الخاطئة المؤلفة من تغريدات تحتوي على مطالبات من 27 يناير حتى نهاية أبريل 2020. قمنا بجمع 138 مطالبات تم التحقق منها، معظمها من مواقع التحقق من الحقائق الشعبي ة، وحددنا 9.4K تغريدات ذات صلة مع تلك المطالبات. تم فحص التغريدات يدويا بفحصها يدويا لدعم البحوث حول الكشف عن المعلومات الخاطئة، وهي واحدة من المشاكل الرئيسية التي تواجهها خلال جائحة. تدعم شائعات ARCOV19 مستويين من الكشف عن المعلومات الخاطئة على Twitter: التحقق من مطالبات النص الحر (تسمى التحقق من مستوى المطالبة) والتحقق من المطالبات المعبر عنها في تغريدات (تسمى التحقق من مستوى التغريد). أغطية البيانات الخاصة بنا، بالإضافة إلى الصحة، والمطالبات المتعلقة بالفئات الموضعية الأخرى التي تأثرت بالكوفيد 19، وهي الاجتماعية والسياسة والرياضة والترفيه والدينية. علاوة على ذلك، فإننا نقدم نتائج مرجعية للتحقق من المستوى التغردد على DataSet. جربنا نماذج SOTA من النهج التنوعية التي إما استغلال المحتوى، وميزات ملفات تعريف المستخدمين، والميزات الزمنية وهيكل الانتشار من مؤشرات الترابط المحادثة للتحقق من تغريد التغريد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا