يتم تشفير المعرفة البشرية بشكل جماعي في حوالي 6500 لغة تحدثت في جميع أنحاء العالم، لكنها لا توزع بنفس القدر من اللغات.وبالتالي، بالنسبة لنظم الإجابة على الأسئلة التي تسعى للحصول على المعلومات (QA) لخدمة مكبرات الصوت بشكل كاف من جميع اللغات، فإنها تحتاج إلى تشغيل عبر المقلوب.في هذا العمل، نحقق في إمكانات نماذج اللغة المسبقة للحداجات متعددة اللغات على QA عبر اللغات.نجد أن محاذاة التمثيلات الصافية عبر اللغات التي تحتوي على خطوة Finetuning Post-Hoc تؤدي عموما إلى تحسين الأداء.نحن بالإضافة إلى ذلك التحقيق في تأثير حجم البيانات بالإضافة إلى اختيار اللغة في هذه الخطوة الدقيقة هذه، أيضا إطلاق مجموعة بيانات لتقييم أنظمة QA عبر اللغات.
Human knowledge is collectively encoded in the roughly 6500 languages spoken around the world, but it is not distributed equally across languages. Hence, for information-seeking question answering (QA) systems to adequately serve speakers of all languages, they need to operate cross-lingually. In this work we investigate the capabilities of multilingually pretrained language models on cross-lingual QA. We find that explicitly aligning the representations across languages with a post-hoc finetuning step generally leads to improved performance. We additionally investigate the effect of data size as well as the language choice in this fine-tuning step, also releasing a dataset for evaluating cross-lingual QA systems.
المراجع المستخدمة
https://aclanthology.org/
حققت نماذج لغة الرؤية المحددة الأخيرة أداء مثير للإعجاب على مهام الاسترجاع عبر مشروط باللغة الإنجليزية. ومع ذلك، تعتمد نجاحهم بشكل كبير على توافر العديد من مجموعات بيانات التعليق المشروح على الصورة لإحاطاء، حيث لا تكون النصوص بالضرورة باللغة الإنجليز
تفترض السؤال المتعدد اللغات الرد على المهام عادة أن الإجابات موجودة بنفس اللغة مثل السؤال. ومع ذلك، في الممارسة العملية، تواجه العديد من اللغات كل من ندرة المعلومات --- حيث تحتوي اللغات على عدد قليل من المقالات المرجعية --- واستاجةم المعلومات --- أين
يتطلب الإجابة السؤال المنطوقة (SQA) فهما غريبا من الوثائق والأسئلة المنطوقة للتنبؤ بالأجواب المثلى. في هذه الورقة، نقترح خطط تدريبية جديدة للسؤال المستحضر الرد على مرحلة تدريب ذاتية الإشراف ومرحلة تعليم التمثيل المتعاقبة. في المرحلة الإشراف ذاتيا، نق
تحقق نماذج الرد على الأسئلة النصية الحالية (QA) أداء قوي على مجموعات اختبار داخل المجال، ولكن في كثير من الأحيان القيام بذلك عن طريق تركيب أنماط المستوى السطحي، لذلك فشلوا في التعميم لإعدادات خارج التوزيع. لجعل نظام ضمان الجودة أكثر قوة ومفهومة، نقوم
أظهرت الدراسات الحديثة أن النماذج المتبادلة المدربة مسبقا تحقق أداء مثير للإعجاب في المهام المتقاطعة المتبادلة. يستفيد هذا التحسن من تعلم كمية كبيرة من مونوللقي والموازيات. على الرغم من أنه من المعترف به عموما أن شركة فورانيا الموازية أمر بالغ الأهمي