نقدم الأزواج، أول مجموعة بيانات عربية كبيرة من المطالبات التي تحدث بشكل طبيعي تم جمعها من 5 مواقع عربية للتحقق من الحقائق، على سبيل المثال، فات بايانو ومطبقة، وتغطي المطالبات التي تغطيها منذ عام 2016. تتكون DataSet لدينا من 6،121 مطالبة جنبا إلى جنب مع ملصقاتها الواقعية والبيانات الوصفية الإضافية، مثلمع تحديد محتوى المقال عن الواقع، فئة موضحة، وروابط للمشاركات أو صفحات الويب نشر المطالبة.نظرا لأن البيانات يتم الحصول عليها من مختلف مواقع التحقق من الحقائق، فإننا نقوم بتوحيد ملصقات المطالبة الأصلية لتوفير تصنيف ملصقات موحدة لجميع المطالبات.علاوة على ذلك، نحن نقدم إحصاءات البيانات الكاشفة وتحفيز استخدامها من خلال اقتراح تطبيقات بحثية محتملة.يتم توفير مجموعة البيانات للجمهور لمجتمع البحث.
We introduce AraFacts, the first large Arabic dataset of naturally occurring claims collected from 5 Arabic fact-checking websites, e.g., Fatabyyano and Misbar, and covering claims since 2016. Our dataset consists of 6,121 claims along with their factual labels and additional metadata, such as fact-checking article content, topical category, and links to posts or Web pages spreading the claim. Since the data is obtained from various fact-checking websites, we standardize the original claim labels to provide a unified label rating for all claims. Moreover, we provide revealing dataset statistics and motivate its use by suggesting possible research applications. The dataset is made publicly available for the research community.
المراجع المستخدمة
https://aclanthology.org/
يمكن أن تعكس القواط التي تحدث بشكل طبيعي، مثل الإجابة على شظايا لأسئلة اللغة الطبيعية والارتباطات التشعبية على صفحات الويب، الحد من الحدس النحامي البشري فيما يتعلق بحدود الجمل الفعلية.إن توفرهم والمراسلات التقريبية لبناء الجملة يجعلهم جذابا على أنها
في هذه الورقة، نقدم مجموعة بيانات Arcov-19، وهي مجموعة بيانات عربية Covid-19 Twitter التي تمتد لمدة عام واحد، تغطي الفترة من 27 يناير 2020 حتى 31 يناير 2021. Arcov-19 هي أول مجموعة بيانات عربية تويتر العربية التي تغطي كوفي -19 الوباء يتضمن حوالي 2.7
تم جمع معظم مجموعات بيانات تحليل الدلالات المتاحة، والتي تتكون من أزواج من الكلام الطبيعي والنماذج المنطقية، فقط لغرض تدريب وتقييم أنظمة فهم اللغة الطبيعية.ونتيجة لذلك، فإنها لا تحتوي على أي من ثراء ومجموعة متنوعة من الكلام الطبيعية التي تحدث، حيث يس
على مختلف منصات وسائل التواصل الاجتماعي، يميل الناس، إلى استخدام الطريقة غير الرسمية للتواصل، أو كتابة المشاركات والتعليقات: لهجاتهم المحلية.في أفريقيا، توجد أكثر من 1500 لغة ولغات.لا سيما، يتحدث التونسيون والكتابة بشكل غير رسمي باستخدام الحروف والأر
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية