في هذه الورقة، نقدم أول بيانات مفاجئة متعددة اللغات متاحة للجمهور.جمعنا حوالي 6M أسئلة وأجوبة أزواج من الويب، في 21 لغة مختلفة.على الرغم من أن هذا أكبر بكثير من مجموعات بيانات استرجاع الأسئلة الشائعة الحالية، إلا أنها تأتي مع تحدياتها الخاصة: ازدواجية المحتوى والتوزيع غير المتكافئ للمواضيع.نعتمد إعداد مماثل لاسترجاع مرور كثيف (DPR) واختبار العديد من التشفير BI على هذه البيانات.تكشف تجاربنا أن نموذج متعدد اللغات يعتمد على XLM-Roberta يحقق أفضل النتائج، باستثناء اللغة الإنجليزية.يبدو أن لغات الموارد السفلية تتعلم من بعضها البعض ككلمة متعددة اللغات يحقق MRR أعلى من تلك الخاصة باللغة.يكشف تحليلنا النوعي عن تنشيط النموذج على تغييرات كلمة بسيطة.نحن نطلق علنا علنا DataSet، نموذج، وتدريب البرنامج النصي.
In this paper, we present the first multilingual FAQ dataset publicly available. We collected around 6M FAQ pairs from the web, in 21 different languages. Although this is significantly larger than existing FAQ retrieval datasets, it comes with its own challenges: duplication of content and uneven distribution of topics. We adopt a similar setup as Dense Passage Retrieval (DPR) and test various bi-encoders on this dataset. Our experiments reveal that a multilingual model based on XLM-RoBERTa achieves the best results, except for English. Lower resources languages seem to learn from one another as a multilingual model achieves a higher MRR than language-specific ones. Our qualitative analysis reveals the brittleness of the model on simple word changes. We publicly release our dataset, model, and training script.
المراجع المستخدمة
https://aclanthology.org/
وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد
تقدم هذه الورقة StoryDB --- مجموعة بيانات واسعة متعددة اللغات من الروايات.StoryDB هي جثة من النصوص التي تضم قصص في 42 لغة مختلفة.تتضمن كل لغة 500+ قصص.تشمل بعض اللغات أكثر من 20 ألف قصة.يتم فهرسة كل قصة عبر اللغات والمسمى مع العلامات مثل النوع أو الم
تصفيات مضادة تصف الأحداث التي لم تتم أو لا يمكنها إجراءها. نحن نعتبر مشكلة الكشف المتعرضين (CFD) في مراجعات المنتج. لهذا الغرض، فإننا نحيطر على مجموعة بيانات متعددة اللغات CFD من مراجعات منتجات الأمازون التي تغطي البيانات الإضافية المكتوب باللغات الإ
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا
في هذه الورقة، نحدد وتقييم منهجية لاستخراج الأسئلة المكانية التي تعتمد على التاريخ من الحوارات البصرية.نقول أن السؤال يعتمد على التاريخ إذا كان يتطلب (أجزاء) تاريخ حواره المراد تفسيره.نقول أن بعض أنواع الأسئلة المرئية تحدد السياق الذي يعتمد عليه سؤال