ترغب بنشر مسار تعليمي؟ اضغط هنا

Kawarith: كوربوس تويتر العربي لأحداث الأزمات

Kawarith: an Arabic Twitter Corpus for Crisis Events

377   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توفر منصات الوسائط الاجتماعية (SM) مثل Twitter كميات كبيرة من البيانات في الوقت الفعلي والتي يمكن الاستفادة منها أثناء حالات الطوارئ الجماعية. تتطلب تطوير أدوات لدعم المجتمعات المتأثرة بالأزمات مجموعات البيانات المتاحة، والتي غالبا ما تكون موجودة لغات الموارد المنخفضة. تقدم هذه الورقة Kawarith A Corpus عربي لهي تيتر من أجل أحداث الأزمات، تضم أكثر من مليون تغريدات عربية تم جمعها خلال 22 أزمات حدثت بين عامي 2018 و 2020 وشمل عدة أنواع من الخطر. كشف استكشاف هذا المحتوى عن أهم المواضيع وأنواع المعلومات، وتقدم الورقة مجموعة بيانات معدنية من سبعة أحداث طارئة تعمل كمعيار ذهبي للعديد من المهام في أبحاث المعلوماتية للأزمات. استخدام البيانات المشروحة من نفس الحدث، يكون نموذج BERT يتم ضبطه جيدا لتصنيف تغريدات إلى فئات مختلفة في الإعداد متعدد الملصقات. تظهر النتائج أن النماذج القائمة على بيرت تسفر عن أداء جيد في هذه المهمة حتى مع كميات صغيرة من بيانات التدريب الخاصة بمهام المهام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف .نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.
كانت الانتخابات الأمريكية 2020، أكثر من أي وقت مضى، تتميز بحملات وسائل التواصل الاجتماعي والاتهامات المتبادلة. نحن نحقق في هذه الورقة إذا كان هذا يتجلى أيضا في الاتصالات عبر الإنترنت من مؤيدي المرشحين بايدن وترامب، من خلال نطق التواصل البغيض والهجومي . نقوم بصياغة مهمة توضيحية، نمتلك فيها مهام الكشف عن الكلام والموقف البغيضة / الهجومية، والاحليق على 3000 تغريدات من فترة الحملة، إذا أعربوا عن موقف معين تجاه المرشح. بجانب الطبقات المنشأة المتميزة من مواتية وضد، نقوم بإضافة مواقف مختلطة ومحايدة وأوضح أيضا إذا تم ذكر مرشح تعبير الرأي. علاوة على ذلك، نحن نلاحظ إذا كانت سقسقة مكتوبة بأسلوب مسيء. وهذا يتيح لنا أن نحلل إذا كان مؤيدو جو بايدن والحزب الديمقراطي يتواصلون بشكل مختلف عن أنصار دونالد ترامب والحزب الجمهوري. يوضح مصنف Bert Baseline أن الكشف إذا كان شخص ما مؤيد للمرشح يمكن إجراء جودة عالية ( (.79 F1 و .64 F1، على التوالي). لا يزال الكشف التلقائي لخطاب الكراهية / الهجومية تحديا (مع .53 F1). تتمتع كوربوس لدينا علنا ​​وتشكل مصدرا جديدا للنمذجة الحسابية للغة الهجومية قيد النظر في المواقف.
في الترجمة الآلية، يعد إعداد Corpus أحد المهام الحاسمة، خاصة لأزواج منخفضة.في بلدان متعددة اللغات مثل الهند، تلعب الترجمة الآلية دورا حيويا في التواصل بين الأشخاص الذين لديهم خلفيات لغوية مختلفة.تتوفر أنظمة الترجمة الآلية المتوفرة عبر الإنترنت من قبل Google و Microsoft والتي تشمل لغات مختلفة تفتقر إلى الدعم لغلق Khasi، والتي يمكن اعتبارها LonResource.نظرة عامة على هذه الورقة تطوير ENKHCCORP1.0، وهي كوربوس للإنجليزية - Khasi Pair، ونفذت أنظمة أساسية للترجمة الإنجليزي Englishtokhasi و Khasitoenglish بناء على نهج ترجمة الآلات العصبية.
الوسائط الاجتماعية هي أداة أساسية لتبادل المعلومات حول أحداث الأزمات، مثل الكوارث الطبيعية. يهدف الكشف عن الحدث إلى استخراج المعلومات في شكل حدث، ولكنه يعتبر كل حدث بمعزل، دون الجمع بين المعلومات عبر الجمل أو الأحداث. تحتوي العديد من الوظائف في أزمة NLP على معلومات متكررة أو تكميلية تحتاج إلى تجميعها (على سبيل المثال، عدد الأشخاص المحاصرين وموقعهم) للاستجابة للكوارث. على الرغم من أن النهج السابقة في أزمة NLP إجمالية المعلومات عبر المشاركات، إلا أنها تستخدم فقط التمثيلات الضحلة للمحتوى (على سبيل المثال، الكلمات الرئيسية)، والتي لا يمكن أن تمثل دلالة لحدث الأزمات وأسفرها بشكل كاف. في هذا العمل، نقترح إطارا جديدا لاستخراج الأحداث الفرعية النقدية من حدث أزمة واسعة النطاق من خلال الجمع بين المعلومات الهامة عبر التغريدات ذات الصلة. يقوم إطارنا أولا بتحويل جميع التغريدات من حدث الأزمات إلى مجموعة من الرسوم البيانية المرتبة الزمنية. ثم تستخرج الرسوم البيانية الفرعية التي تمثل العلاقات الدلالية التي تربط الأفعال والأسماء في 3 إلى 6 رسوم بيانية فرعية عقدة. يفعل ذلك من خلال تعلم الأوزان الحافة عبر الشبكات التنافسية الرسمية الرسمية (DGCNS) واستخراج الرسوم البيانية الفرعية الصغيرة ذات الصلة. تظهر تجاربنا أن هياكلنا المستخرجة (1) هي أحداث فرعية ذات مغزى دلالة و (2) تحتوي على معلومات مهمة لحدث الأزمة الكبيرة. علاوة على ذلك، نظير على أن نهجنا يتفوق بشكل كبير على خطوط الأساس للكشف عن الحدث، وتسليط الضوء على أهمية المعلومات التجميعية عبر تغريدات مهمتنا.
تلخيص النص التلقائي (ATS) هو مهمة توليد ملخصات موجزة وطلاقة من مستند واحد أو أكثر.في هذه الورقة، نقدم ICESUM، أول كوربوس الأيسلندية المشروح مع ملخصات تولدها الإنسان.يتكون ICESUM من 1000 مقالة إخبارية عبر الإنترنت ملخصاتها الاستخراجية.نحن ندرب وتقييم العديد من النماذج القائمة على الشبكة العصبية في هذه البيانات، ومقارنتها ضد مجموعة مختارة من الأساليب الأساسية.نجد أن نموذج فك ترميز التشفير مع النازع المستند إلى التسلسل يحصل على أفضل النتائج، مما يتفوق على جميع أساليب خط الأساس.علاوة على ذلك، نقيم كيف يؤثر حجم كوربوس التدريب على جودة الملخصات التي تم إنشاؤها.نفرج عن Corpus والنماذج مع ترخيص مفتوح.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا