العديد من الأساليب الأخيرة تجاه استرجاع المعلومات العصبية تخفف من تكاليفها الحاسوبية باستخدام خط أنابيب الترتيب متعدد المراحل.في المرحلة الأولى، يتم استرجاع عدد من المرشحين المحتملين ذوي الصلة باستخدام نموذج استرجاع فعال مثل BM25.على الرغم من أن BM25 قد أثبت أداء لائق كمرفاة في المرحلة الأولى، فإنه يميل إلى تفويت الممرات ذات الصلة.في هذا السياق، نقترح كورت، وهو نموذج بسيط في المرحلة الأولى من المرحلة الأولى يرفع تمثيلات سياقية من نماذج اللغة المسبقة مسبقا مثل بيرت لاستكمال وظائف الترتيب القائمة على الأجل مع عدم التسبب في عدم وجود تأخير كبير في وقت الاستعلام.باستخدام DataSet MS Marco، نظهر أن Cort يزيد بشكل كبير من استدعاء المرشح من خلال استكمال BM25 مع المرشحين المفقودين.وبالتالي، نجد أن إعادة الراهنات اللاحقة تحقيق نتائج فائقة مع أقل مرشحين.نوضح كذلك أن استرجاع المرور باستخدام CORT يمكن تحقيقه مع انخفاض الآمون المنخفض بشكل مدهش.
Many recent approaches towards neural information retrieval mitigate their computational costs by using a multi-stage ranking pipeline. In the first stage, a number of potentially relevant candidates are retrieved using an efficient retrieval model such as BM25. Although BM25 has proven decent performance as a first-stage ranker, it tends to miss relevant passages. In this context we propose CoRT, a simple neural first-stage ranking model that leverages contextual representations from pretrained language models such as BERT to complement term-based ranking functions while causing no significant delay at query time. Using the MS MARCO dataset, we show that CoRT significantly increases the candidate recall by complementing BM25 with missing candidates. Consequently, we find subsequent re-rankers achieve superior results with less candidates. We further demonstrate that passage retrieval using CoRT can be realized with surprisingly low latencies.
المراجع المستخدمة
https://aclanthology.org/
النهج الحالي لجمع الأحكام البشرية لجودة الترجمة الآلية لمهمة الترجمة الأخبار في WMT - تصنيف القطاع مع سياق المستند - هو الأحدث في سلسلة من التغييرات في بروتوكول التعليق البشري WMT.نظرا لأن البروتوكولات التوضيحية هذه تغيرت مع مرور الوقت، فقد انجرفت بع
في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين ال
أن تكون قادرا على أداء تقدير صعوبة الأسئلة بدقة (QDE) تحسين دقة تقييم الطلاب وتحسين تجربة التعلم. الأساليب التقليدية إلى QDE هي إما ذاتية أو إدخال تأخير طويل قبل أن يتم استخدام أسئلة جديدة لتقييم الطلاب. وبالتالي، اقترح العمل الأخير النهج القائم على
تمثل التمثيلات من النماذج الكبيرة المحددة مسبقا مثل Bert مجموعة من الميزات في متجهات غير متجانسة، مما يوفر دقة تنبؤية قوية عبر مجموعة من المهام المصب. في هذه الورقة، نستكشف ما إذا كان من الممكن تعلم تمثيلات محددة من خلال تحديد الشبكات الفرعية الحالية
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة