ترغب بنشر مسار تعليمي؟ اضغط هنا

مع استمرار العالم في محاربة جائحة CovID-19، فإنه يقاتل في وقت واحد من نقص الدم "- وهو طوفان من تضليل وانتشار نظريات المؤامرة المؤدية إلى تهديدات صحية وشعبة المجتمع. لمكافحة هذا المعكرية، هناك حاجة ملحة لمجموعات البيانات القياسية التي يمكن أن تساعد ال باحثين على تطوير وتقييم النماذج الموجهة نحو الكشف التلقائي عن التضليل. في حين أن هناك جهودا متزايدة لإنشاء مجموعات بيانات قياسية كافية ومفتوحة للمصدر للغة الإنجليزية، فإن الموارد القابلة للمقارنة غير متاحة تقريبا بالنسبة للألمانية، مما يترك البحث في اللغة الألمانية متخلفة بشكل كبير. في هذه الورقة، نقدم DataSet المعيار الجديد Fang-Covid يتكون من 28،056 مواد إخبارية ألمانية حقيقية و 13،186 مرتبطة بمعائق CovID-19 وكذلك بيانات عن انتشارها على Twitter. علاوة على ذلك، نقترح نموذجا قابل للتفسير القائم على السياق والاجتماعي للكشف عن الأخبار المزيفة، ومقارنة أدائه إلى النماذج والأداء الأسود الميزة لتقييم الأهمية النسبية للميزات القابلة للتفسير البشرية في التمييز بين الأخبار المزيفة من الأخبار الأصلية وبعد
نقدم السيد Tydi، وهي مجموعة بيانات مرجعية متعددة اللغات لاسترجاع أحادي اللغات في أحد عشر لغة متنوعة من الناحية النموذجية، مصممة لتقييم الترتيب مع التمثيلات الكثيفة المستفادة.الهدف من هذا المورد هو أن يحفز البحث في تقنيات استرجاع كثيفة باللغات غير الإ نجليزية، بدافع من الملاحظات الحديثة أن التقنيات الحالية لتعلم التمثيل تؤدي سيئة عند تطبيقها على بيانات خارج التوزيع.كنقطة انطلاق، نحن نقدم خطوط خطوط خطوط البيانات الخاصة بهذه البيانات الجديدة القائمة على التكيف متعدد اللغات من DPR التي نسميها MDPR ".تبين التجارب أنه على الرغم من أن فعالية MDPR أقل بكثير من BM25، إلا أن تمثيلات كثيفة يبدو أنها توفر إشارات ذات أهمية قيمة، وتحسين نتائج BM25 في Sparse - الهجينة الكثيفة.بالإضافة إلى تحليلات نتائجنا، نناقش أيضا التحديات المستقبلية وتقديم جدول أعمال بحث في استرجاع كثيف متعدد اللغات.يمكن تنزيل السيد Tydi في https://github.com/castorini/mr.tydi.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا