في هذه الورقة، نقدم أول بيانات مفاجئة متعددة اللغات متاحة للجمهور.جمعنا حوالي 6M أسئلة وأجوبة أزواج من الويب، في 21 لغة مختلفة.على الرغم من أن هذا أكبر بكثير من مجموعات بيانات استرجاع الأسئلة الشائعة الحالية، إلا أنها تأتي مع تحدياتها الخاصة: ازدواجية المحتوى والتوزيع غير المتكافئ للمواضيع.نعتمد إعداد مماثل لاسترجاع مرور كثيف (DPR) واختبار العديد من التشفير BI على هذه البيانات.تكشف تجاربنا أن نموذج متعدد اللغات يعتمد على XLM-Roberta يحقق أفضل النتائج، باستثناء اللغة الإنجليزية.يبدو أن لغات الموارد السفلية تتعلم من بعضها البعض ككلمة متعددة اللغات يحقق MRR أعلى من تلك الخاصة باللغة.يكشف تحليلنا النوعي عن تنشيط النموذج على تغييرات كلمة بسيطة.نحن نطلق علنا علنا DataSet، نموذج، وتدريب البرنامج النصي.