ترغب بنشر مسار تعليمي؟ اضغط هنا

يهدف سؤال متعدد اللغات، الرد على الرسم البياني للمعرفة (KGQA) إلى استخلاص إجابات من الرسم البياني المعرفي (KG) للأسئلة بلغات متعددة. لتكون قابلة للتطبيق على نطاق واسع، نركز على إعداد نقل الطلقة الصفرية. هذا هو، يمكننا فقط الوصول إلى البيانات التدريبي ة فقط بلغة موارد عالية، بينما تحتاج إلى الإجابة على أسئلة متعددة اللغات دون أي بيانات معدنية باللغات المستهدفة. يتم تشغيل نهج مباشر إلى نماذج متعددة اللغات المدربة مسبقا (على سبيل المثال، MBERT) للنقل عبر اللغات، ولكن هناك فجوة كبيرة من الأداء KGQA بين المصدر واللغات المستهدفة. في هذه الورقة، نستمسى تحريض معجم ثنائي اللغة دون مقابل (BLI) لخريطة الأسئلة التدريبية في لغة المصدر في تلك الموجودة في اللغة المستهدفة مثل بيانات التدريب المعزز، والتي تتحل إلى عدم تناسق اللغة بين التدريب والاستدلال. علاوة على ذلك، نقترح استراتيجية تعليمية عدائية لتخفيف اضطراب بناء الجملة في البيانات المعززة، مما يجعل النموذج يميل إلى كل من اللغة والبنيات الاستقلال. وبالتالي، فإن نموذجنا يضيق الفجوة في تحويل صفرية عبر اللغات. التجارب على مجموعة بيانات KGQA متعددة اللغات مع 11 لغة موارد صفرية تحقق من فعاليتها.
في الإجابة على الأسئلة المفتوحة للنطاق، أصبح استرجاع المقطع الكثيف نموذجا جديدا لاسترداد الممرات ذات الصلة لإيجاد الإجابات. عادة ما يتم اعتماد بنية التشفير المزدوجة لتعلم تمثيلات كثيفة من الأسئلة والممرات للمطابقة الدلالية. ومع ذلك، من الصعب تدريب تش فير مزدوج بشكل فعال بسبب التحديات بما في ذلك التناقض بين التدريب والاستدلال، ووجود إيجابيات غير محدودة وبيانات تدريب محدودة. لمعالجة هذه التحديات، نقترح نهج تدريبي محسن، يسمى Rocketqa، لتحسين استرجاع الممر الكثيف. نجعل ثلاث مساهمات تقنية رئيسية في Rocketqa، وهي السلبيات عبر الدفعة، السلبيات الصلبة الشاقة وزعم البيانات. تظهر نتائج التجربة أن Rocketqa تتفوق بشكل كبير على النماذج السابقة من بين الفنادق السابقة على كل من MSMARCO والأسئلة الطبيعية. نقوم أيضا بإجراء تجارب مكثفة لفحص فعالية الاستراتيجيات الثلاث في Rocketqa. علاوة على ذلك، نوضح أن أداء ضمان الجودة المناسبة يمكن تحسينه بناء على مسترد Rocketqa لدينا.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا