تعتمد أنظمة استرجاع المعلومات الكلاسيكية مثل BM25 على المباراة المعجمية الدقيقة ويمكنها تنفيذ البحث بكفاءة مع فهرس قائمة مقلوب.تتحول نماذج الأشعة تحت الحديثة الأخيرة نحو ناعم مطابقة شروط مستندات الاستعلام، لكنها تفقد كفاءة حساب أنظمة المطابقة الدقيقة.تقدم هذه الورقة لفائف، وهي عبارة عن بنية استرجاع مطابقة محددة في السياق، حيث تعتمد التهديف على تمثيلات محكومتي استفسارات الاستعلام المتداخلة.تخزن الهندسة المعمارية الجديدة تمثيلات الرمز المميز للسيتق في القوائم المقلوبة، مما يوفر كفاءة المباراة الدقيقة وقوة التمثيل لنماذج اللغة العميقة.تظهر النتائج التجريبية لدينا لفائف تفوق المستردات المعجمية الكلاسيكية واسترجاع LM العميق الحديثة مع الكمون مماثل أو أصغر.
Classical information retrieval systems such as BM25 rely on exact lexical match and can carry out search efficiently with inverted list index. Recent neural IR models shifts towards soft matching all query document terms, but they lose the computation efficiency of exact match systems. This paper presents COIL, a contextualized exact match retrieval architecture, where scoring is based on overlapping query document tokens' contextualized representations. The new architecture stores contextualized token representations in inverted lists, bringing together the efficiency of exact match and the representation power of deep language models. Our experimental results show COIL outperforms classical lexical retrievers and state-of-the-art deep LM retrievers with similar or smaller latency.
References used
The uniform information density (UID) hypothesis posits a preference among language users for utterances structured such that information is distributed uniformly across a signal. While its implications on language production have been well explored,
Semantic Web is a new revolution in the world of the Web, where information and
data become viable for logical processing by computer programs. Where they are
transformed into meaningful data network. Although Semantic Web is considered the
Relation prediction informed from a combination of text corpora and curated knowledge bases, combining knowledge graph completion with relation extraction, is a relatively little studied task. A system that can perform this task has the ability to ex
Raimy (1999; 2000a; 2000b) proposed a graphical formalism for modeling reduplication, originallymostly focused on phonological overapplication in a derivational framework. This framework is now known as Precedence-based phonology or Multiprecedence p
Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BM