تعتمد أنظمة استرجاع المعلومات الكلاسيكية مثل BM25 على المباراة المعجمية الدقيقة ويمكنها تنفيذ البحث بكفاءة مع فهرس قائمة مقلوب.تتحول نماذج الأشعة تحت الحديثة الأخيرة نحو ناعم مطابقة شروط مستندات الاستعلام، لكنها تفقد كفاءة حساب أنظمة المطابقة الدقيقة.تقدم هذه الورقة لفائف، وهي عبارة عن بنية استرجاع مطابقة محددة في السياق، حيث تعتمد التهديف على تمثيلات محكومتي استفسارات الاستعلام المتداخلة.تخزن الهندسة المعمارية الجديدة تمثيلات الرمز المميز للسيتق في القوائم المقلوبة، مما يوفر كفاءة المباراة الدقيقة وقوة التمثيل لنماذج اللغة العميقة.تظهر النتائج التجريبية لدينا لفائف تفوق المستردات المعجمية الكلاسيكية واسترجاع LM العميق الحديثة مع الكمون مماثل أو أصغر.
Classical information retrieval systems such as BM25 rely on exact lexical match and can carry out search efficiently with inverted list index. Recent neural IR models shifts towards soft matching all query document terms, but they lose the computation efficiency of exact match systems. This paper presents COIL, a contextualized exact match retrieval architecture, where scoring is based on overlapping query document tokens' contextualized representations. The new architecture stores contextualized token representations in inverted lists, bringing together the efficiency of exact match and the representation power of deep language models. Our experimental results show COIL outperforms classical lexical retrievers and state-of-the-art deep LM retrievers with similar or smaller latency.
المراجع المستخدمة
https://aclanthology.org/
تفرض فرضية كثافة المعلومات الموحدة (UID) تفضيل بين مستخدمي اللغة للكلمات المهنية بحيث يتم توزيع هذه المعلومات بشكل موحد عبر إشارة. في حين أن آثارها على الإنتاج اللغوي قد تم استكشافها جيدا، إلا أن الفرضية يحتمل أن تجعل تنبؤات حول فهم اللغة والقبول الل
يُعتبر الويب الدلالي ثورة جديدة في عالم الويب، حيث تصبح المعلومات و البيانات قابلة للمعالجة منطقياً من قِبل برامج الحاسوب، بحيث تتحول تلك المعلومات و البيانات إلى شبكة معارف ذات معنى مُحدّد. يُشكّل الويب الدلالي مستقبل الويب الحالي مع الإشارة إلى أن
التنبؤ بالعلامة المستنيرة عن مجموعة من النصوص وقواعد المعرفة المنوية، يجمع بين إكمال الرسوم البيانية المعرفة مع استخراج العلاقات، هي مهمة درس صغيرة نسبيا.النظام الذي يمكن أن يؤدي هذه المهمة له القدرة على تمديد مجموعة تعسفية من جداول قاعدة البيانات ال
RAIMY (1999؛ 2000A؛ 2000b) اقترحت الشكليات الرسومية لإدراج النمذجة، والتي تركز بشكل أصلا على التكرار الصوتي في إطار مشتق.يعرف هذا الإطار الآن باسم علم الصوتيات المستندة إلى الأسبقية أو علم الصوتيات متعدد المعتدل.فكرة راسي هي أن القطاعات في المدخلات إ
إن إدخال طلاب المعلوماتيين الطبية الحيوية (BMI) للمعالجة اللغوية الطبيعية (NLP) يتطلب موازنة العمق الفني مع المعرفة العملية لمعالجة الاحتياجات التي تركز على التطبيق.قمنا بتطوير مجموعة من ثلاثة أنشطة إدخال طلاب BMI تمهيدي لاسترجاع المعلومات مع NLP، وا