ترغب بنشر مسار تعليمي؟ اضغط هنا

العثور على مشاركات Covid-19 Information في مجرى تغريدات مفيدة للغاية لمراقبة التحديثات المتعلقة بالصحة.يعمل العمل السابق على إعداد بيانات متوازن وعلى اللغة الإنجليزية، ولكن تغريدات مفيدة نادرة، والإنجليزية ليست سوى واحدة من العديد من اللغات التي يتحد ث بها في العالم.في هذا العمل، نقدم مجموعة بيانات جديدة تبلغ 5000 تغريدات للعثور على تغريدات Covid-19 مفيدة لدنماركي.على عكس العمل المسبق، الذي يوازن بين توزيع الملصقات، نقوم بالنماذج المشكلة عن طريق الحفاظ على توزيعها الطبيعي.نحن ندرس مدى أداء نموذج الاحتمالية البسيط والشبكة العصبية التنافسية (CNN) في هذه المهمة.نجد CNN مرجح للعمل بشكل جيد ولكنها حساسة لتضمين وخيارات HyperParameter.نأمل أن تكون DataSet المساهمة نقطة انطلاق لمزيد من العمل في هذا الاتجاه.
نقدم Bertweetfr، أول نموذج لغوي مدرب مسبقا على نطاق واسع للتغريدات الفرنسية.يتم تهيئ نموذجنا باستخدام نموذج اللغة الفرنسية المجال للمجال Camembert الذي يتبع بنية Base Bert.تظهر التجارب أن Bertweetfr Outperforms جميع نماذج اللغة الفرنسية العامة في الم جال السابق على اثنين من مهام Twitter Twitter من Twitter من تحديد الاجثافية التعرف على الكيان المسمى.تم إنشاء DataSet المستخدمة في مهمة كشف الاجزاسية أولا وشروحة من قبل فريقنا، وملء فجوة هذه البيانات التحليلية في الفرنسية.نجعل نموذجنا متاحا علنا في مكتبة المحولات بهدف تعزيز البحث في المستقبل في المهام التحليلية للتغريدات الفرنسية.
في حين أن لقاحات CoviD-19 أصبحت متاحة في النهاية على نطاق واسع، فإن الوباء الثاني الذي يدور حول تداول الأخبار المضادة ل Vaxxer وهمية "قد يعيق الجهود للتعافي من أول واحد.مع وضع ذلك في الاعتبار، أجرينا تحليلا مكثفا للعقائز العربية والإنجليزية حول لقاحا ت CovID-19، مع التركيز على الرسائل المنصولة من قطر.وجدنا أن التغريدات العربية تحتوي على الكثير من المعلومات والشائعات الخاطئة، في حين أن تغريدات اللغة الإنجليزية هي في الغالب واقعية.ومع ذلك، فإن تغريدات اللغة الإنجليزية هي أكثر إثارةا من اللغة العربية.فيما يتعلق بتقنيات الدعاية، فإن حوالي نصف التغريدات العربية تعبر عن الشك، و 1/5 استخدام اللغة المحملة، في حين أن تغريدات اللغة الإنجليزية وفيرة في اللغة المحملة، المبالغة، والخوف، والسمطية بالاسم، والشك، والتلويح العلمي.أخيرا، من حيث التأطير، تعتمد تغريدات عربية منظور صحية وسلامة، بينما تهيمن في المخاوف الاقتصادية الإنجليزية.
في تطبيقات خدمة العملاء الخاصة بالمجال على الإنترنت، تكافح العديد من الشركات بنشر نماذج NLP المتقدمة بنجاح، بسبب توفر وضوضاء محدودة في مجموعات البيانات الخاصة بهم.في حين أن الأبحاث المسبقة أظهرت إمكانية ترحيل النماذج الكبيرة المسبقة للمجال المفتوحة ل لمهام الخاصة بالمهام الخاصة بالمجال، فإن استراتيجيات التدريب المناسبة (قبل) لم يتم تقييمها بشدة في إعدادات خدمة العملاء في وسائل التواصل الاجتماعي، خاصة في ظل ظروف متعددة اللغات.نحن نتعامل مع هذه الفجوة من خلال جمع وجعة إعلامية اجتماعية متعددة اللغات تحتوي على محادثات خدمة العملاء (تغريدات 865K)، ومقارنة خطوط أنابيب مختلفة من الأساليب المحددة والفصل، وتطبيقها على 5 مهام مختلفة مختلفة.نوضح أنه يلاحظ نموذج محول عام متعدد اللغات على مجموعة بياناتنا داخل المجال، قبل التصميم في مهام نهاية محددة، يعزز الأداء باستمرار، خاصة في الإعدادات غير الإنجليزية.
في نمو العالم اليوم والتكنولوجيا المتقدمة، تلعب شبكات وسائل التواصل الاجتماعي دورا مهما في التأثير على الأرواح البشرية.الرقابة هي الإطاحة عن الكلام أو ناقل الحركة العام أو التفاصيل الأخرى التي تلعب دورا كبيرا في وسائل التواصل الاجتماعي.قد يتم اعتبار المحتوى ضارا أو حساسا أو غير مريح.السلطات مثل المعاهد والحكومات وغيرها من المنظمات تصرف الرقابة.نفذت هذه الورقة نموذجا يساعد على تصنيف التغريدات الرقابة والكشف عنها كتصنيف ثنائي.تصف الورقة تقديمها إلى مهمة مشتركة للرقابة في ورشة عمل NLP4IF 2021.استخدمنا العديد من النماذج المدربة المستندة إلى المحولات، وتخرج XLNet دقة أفضل بين الجميع.نحن نضقل النموذج للحصول على أداء أفضل وحققت دقة معقولة، وتحسب مقاييس الأداء الأخرى.
لقد وجدت الدراسات المسبقة أن المرأة تعزز ذاتيا أقل من الرجال بسبب القوالب النمطية الجنسانية.في هذه الدراسة، قمنا ببناء نموذج NLP القائم على بيرت للتنبؤ بما إذا كانت تغريدة الكونغرس توضح ذاتيا أو لا تفعل ذلك، ثم استخدم هذا النموذج لفحص ما إذا كان هناك فجوة بين الجنسين في الترويج الذاتي بين تغريدات الكونغرس.بعد تحليل مليوني تغريد في الكونغرس في الفترة من يوليو 2017 إلى مارس 2017، السيطرة على عدد من العوامل التي تشمل الحزب السياسي والغرفة والعمر، عدد المصطلحات في الكونغرس وعدد التغريدات اليومية وعدد المتابعين، وجدنا أن النساء في الكونغرسفي الواقع أداء المزيد من الترويج الذاتي على تويتر، مما يدل على انعكاس المعايير الجنسانية التقليدية حيث تعزز النساء الذاتي أقل من الرجال.
تصف هذه الدراسة تصميمنا النموذج المقترح لمهام SMM4H 2021 المشتركة.نحن نغلب النموذج اللغوي لمحولات روبرتا ومصنفهم التوصيل لإكمال مهام التصنيف في تغريدات لنتائج الحمل المعاكسة (المهمة 4) والحالات Covid-19 المحتملة (المهمة 5).متري التقييم هو درجة F1 للف ئة الإيجابية لكلا المهام.بالنسبة للمهمة 4، تجاوزت نقاط لدينا أفضل 0.93 درجة متوسط 0.925.بالنسبة للمهمة 5، تجاوزت أفضل ما بين 0.75 درجة متوسط 0.745.
SIFting تغريدات فرنسية للتحقيق في تأثير CovID-19 في إثارة القلق الشديد.يمكن الاستفادة من وسائل التواصل الاجتماعي لفهم المشاعر والمشاعر العامة في الوقت الفعلي، وتستهدف رسائل الصحة العامة المستندة إلى اهتمامات المستخدم والعواطف.في هذه الورقة، نحقق في ت أثير الوباء CovID-19 في إثارة القلق الشديد، والاعتماد على الرسائل المتبادلة على Twitter.وبشكل أكثر تحديدا، نقدم: ط) إجراء تحليلا كميا ونوعيا لجور تغريدات باللغة الفرنسية ذات صلة بنظام Coronavirus، و II) نهج خط أنابيب (آلية ترشيح تليها أساليب الشبكة العصبية) مرضية للرسائل التي تعبر عن القلق الشديد على وسائل التواصل الاجتماعيبالنظر إلى الدور الذي تلعبه العواطف.
تقدم هذه الورقة نهجنا لمعالجة المهمة المشتركة EACL WANLP-2021 1: تحديد الهلام العربي الدقيق (NADI).تهدف المهمة إلى تطوير نظام يحدد الموقع الجغرافي (البلد / المقاطعة) من مكان وجود تغريدة عربية في شكل لغة عربية أو لهجة قياسية حديثة تأتي من.نحن نحل المه مة في جزأين.ينطوي الجزء الأول على معالجة البيانات المقدمة مسبقا عن طريق التنظيف وإضافة وأجزاء مختلفة من النص.يتبع ذلك إجراء تجارب مع إصدارات مختلفة من النماذج القائمة على المحولات، أرابيرت وأعريليكترا.حقق نهجنا النهائي درجات ماكرو F1 من 0.216، 0.235، 0.054، و 0.043 في الترقيم الفرعي الأربع، وتم تصنيفنا في المرتبة الثانية في المهام الفرعية لتعريف MSA والرابع في عمليات تحديد الهوية الفرعية.
خلال الأشهر القليلة الماضية، كانت هناك أعداد هائلة من التغريدات المتداولة والمناقشات حول Vironavirus (Covid-19) في المنطقة العربية.من المهم لصانعي السياسات والعديد من الأشخاص تحديد أنواع التغريدات المشتركة لفهم السلوك العام بشكل أفضل، ومواضيع المصالح ، وطلبات الحكومات، ومصادر التغريدات، وما إلى ذلك. كما أنه من الأهمية بمكان انتشار شائعات وإضاءة في الفيروس أوعلاجات سيئة.تحقيقا لهذه الغاية، نقدم أكبر مجموعة بيانات مشروحة يدويا من تغريدات عربية تتعلق بالكوف (19).نحن تصف إرشادات التوضيحية، وتحليل DataSet لدينا وبناء نماذج التعلم والتحول في الآلات الفعالة للتصنيف.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا