غالبا ما تستخدم أنظمة استرجاع المستندات على نطاق واسع أنماطين من نماذج الشبكة العصبية التي تعيش في طرفي مختلفين للحساب المشترك مقابل الدقة. النمط الأول هو طرازات تشفير مزدوجة (أو برج ثنائي)، حيث يتم حساب استعلام وتمثيلات المستند بشكل مستقل تماما ومجتمعة مع عملية منتج بسيطة DOT. النمط الثاني هو النماذج المتقاطعة، حيث يتم تسليم ميزات الاستعلام والوثائق في طبقة الإدخال ويستند جميع الحساب على تمثيل مستند الاستعلام المشترك. عادة ما تستخدم نماذج التشفير المزدوج للاسترجاع وإعادة التعتيم العميق، في حين عادة ما يتم استخدام نماذج الانتباه عبر الترتيب الضحل. في هذه الورقة، نقدم بنية خفيفة الوزن تستكشف هذه التكلفة المشتركة مقابل إيقاف تشغيل الدقة بناء على اهتمام متعدد ناقلات (MVA). نحن نقيم بدقة طريقتنا على مجموعة بيانات استرجاع MS-MARCO وإظهار كيفية التجارة الكفاءة من دقة الاسترجاع مع حساب مشترك وتكلفة تخزين المستندات دون اتصال. نظرا لأن تمثيل مستند مضغوط للغاية وسيتم تحقيق حساب مشترك غير مكلف من خلال مزيج من الرموز التجارية المستفادة التجمع والزواج العدواني. لدينا التعليمات البرمجية ونقاط التفتيش مفتوحة ومتاحة على Github.
Large-scale document retrieval systems often utilize two styles of neural network models which live at two different ends of the joint computation vs. accuracy spectrum. The first style is dual encoder (or two-tower) models, where the query and document representations are computed completely independently and combined with a simple dot product operation. The second style is cross-attention models, where the query and document features are concatenated in the input layer and all computation is based on the joint query-document representation. Dual encoder models are typically used for retrieval and deep re-ranking, while cross-attention models are typically used for shallow re-ranking. In this paper, we present a lightweight architecture that explores this joint cost vs. accuracy trade-off based on multi-vector attention (MVA). We thoroughly evaluate our method on the MS-MARCO passage retrieval dataset and show how to efficiently trade off retrieval accuracy with joint computation and offline document storage cost. We show that a highly compressed document representation and inexpensive joint computation can be achieved through a combination of learned pooling tokens and aggressive downprojection. Our code and model checkpoints are open-source and available on GitHub.
References used
https://aclanthology.org/
Word vector representations are an essential part of an NLP curriculum. Here, we describe a homework that has students implement a popular method for learning word vectors, word2vec. Students implement the core parts of the method, including text pre
Multi-head self-attention recently attracts enormous interest owing to its specialized functions, significant parallelizable computation, and flexible extensibility. However, very recent empirical studies show that some self-attention heads make litt
This paper presents the solution proposed by the 1213Li team for subtask 3 in SemEval-2021 Task 6: identifying the multiple persuasion techniques used in the multi-modal content of the meme. We explored various approaches in feature extraction and th
Deep neural language models such as BERT have enabled substantial recent advances in many natural language processing tasks. However, due to the effort and computational cost involved in their pre-training, such models are typically introduced only f
Open-domain extractive question answering works well on textual data by first retrieving candidate texts and then extracting the answer from those candidates. However, some questions cannot be answered by text alone but require information stored in